是否有一个哈希算法是宽容的细微差别？细微、算法、有一个、差别

是否有一个哈希算法是宽容的细微差别？细微、算法、有一个、差别

由网友(开始厌倦)分享简介：我在做一些网络爬虫类的东西，我正在寻找某些条款的网页，并在网页上找到自己的位置，然后将其高速缓存以备后用。我希望能够定期检查网页的任何重大变化。类似的MD5可以通过简单地将当前的日期和时间在网页挫败I'm doing some web crawling type stuff where I'm looking for...

我在做一些网络爬虫类的东西，我正在寻找某些条款的网页，并在网页上找到自己的位置，然后将其高速缓存以备后用。我希望能够定期检查网页的任何重大变化。类似的MD5可以通过简单地将当前的日期和时间在网页挫败

I'm doing some web crawling type stuff where I'm looking for certain terms in webpages and finding their location on the page, and then caching it for later use. I'd like to be able to check the page periodically for any major changes. Something like md5 can be foiled by simply putting the current date and time on the page.

是否有任何这样的事情工作的哈希算法？

Are there any hashing algorithms that work for something like this?

推荐答案

做文档相似性的常见方法是的叠瓦，这是有点比散列更为复杂。还应考虑的内容定义的组块的一种方式来分割的文件。

A common way to do document similarity is shingling, which is somewhat more involved than hashing. Also look into content defined chunking for a way to split up the document.

我读报纸几年前有关使用布鲁姆过滤器相似性检测。使用布鲁姆过滤器来优化网络搜索结果。这是一个有趣的想法，但我从来没有抽时间去用它进行试验。

I read a paper a few years back about using Bloom filters for similarity detection. Using Bloom Filters to Refine Web Search Results. It's an interesting idea, but I never got around to experimenting with it.

阅读全文

相关专题：细微；算法；有一个；差别；宽容；发布时间：2023-09-11 03:41:13

相关推荐

西安西电高压开关有限责任公司（1955年建于陕西省的公司）

四书传注会要（四书传注会要（全十一册））

查找最小的子集和匹配的另一子集和子集、最小

Mac OSX上：Determing无论用户帐户是使用Objective-C的Active Direc

我怎样才能适度降低自己的表现，给予有限的内存？自己的、内存

枚举表单中的所有控件表单、控件

唯一标识一个Android手机标识、手机、Android

熏青豆的做法是什么_青豆的做法

凉拌蛋丝的做法_凉拌蛋丝凉面的做法

湿气会女性导致不孕吗_一般女性肥胖会导致不孕吗

这物的灰效果竟比特效药还好_米饭怎么吃好，米饭加一物排毒效果竟翻

小儿反复扁桃体发炎的原因_成年人扁桃体发炎的原因

中医怎么治疗牙齿松动？_中医推拿治疗腰肌劳损

怎样才能生个漂亮可爱的宝宝_宫口开几指才能生宝宝？

7个绝招，让您远离过劳死!_男人远离过劳死只需简单的五招！

宝宝便秘吃什么比较好_宝宝便秘吃火龙果有效果吗

男人为什么需要女人？女人的作用是什么？_男人一液体竟对女人有神奇作

业务员岗位职责8篇实用(公司业务员岗位职责)

长安镇大大小小的模具厂位置

急求：m5、m6的内螺纹他们的大径、中径、小径分别是多少？(急求手工锡

最新文章

反社会人格障碍(病态人格)（2023最新反社会人格障碍(病态人格)百科

第一批全国重点文物保护单位（1961年3月4日发布的文物保护单位）

巴萨姆·拉维（卡塔尔男子足球运动员）

地方公务员（地方公务员）

金龙村遗址（金龙村遗址）

中国3D电视试验频道（中国3D电视试验频道）

我怎样才能知道什么时候的EditText失去焦点什么时候、焦点、EditT

Android文件上传使用HTTP PUT文件上传、Android、PUT、HTTP

关于天衣无缝的造句大全_用天衣无缝造句大全

祝孩子高考的好祝福语祝孩子高考的好短句_高考孩子祝福语简短祝

足跟痛的治疗方法有哪些_足跟痛的治疗方法透骨草醋汁专治足跟痛

卵巢囊肿的注意事项，这六点必知_秋高气爽时节运动健身必知事项

睡觉多少钱_睡觉多少钱一晚笑话

蜂蜜用温水冲好还是冷水冲好呢_冷水冲蜂蜜可以吗

大麻仁酒方的功效与作用_五加皮浸酒方的功效与作用

鸭腿的家常做法是怎样的_茶树菇的家常做法

2016公司年会创意节目(公司周年庆创意活动方案)

出差工作总结与计划(出差工作总结优秀范文精选)

守灵的意思，是什么意思

电子商务营销方案(电商营销策划方案)