1 3 7 - 1 4 4 1 - 9 7 9 7
首页 > 品牌伙伴 > 品牌伙伴详细内容

公司网站制造爬虫"黑洞"

来源:网页设计公司 | 作者:网页设计公司 | 时间:2022-02-05 | 浏览:1286
字体大小:

网页设计公司网页制作公司网站建设公司


爬虫“黑洞”。爬虫在汇集藏文网页的进程中, 必须斟酌大概泛起的“黑洞”情况。



爬虫黑洞是指, 在抓取一张网页的链接时, 链接自己是一个无穷轮回, 导致爬虫抓取时跟着轮回, 浪掷本钱。偶然一些URL看起来分歧, 但理论指向统一张网页, 也会使爬虫堕入重复抓取的地步。



为了制止爬虫误入黑洞, 通俗采用两种计谋。一是爬虫躲避静态网页, 由于静态网页经常会把爬虫带入黑洞。辨认静态网页时, 只需要判别URL中是否是泛起成果, 含问号的就是静态网页。二是哄骗Visited表纪录曾经会见过的URL, 通常碰着新的URL存在于Visited表, 就废弃对该URL的继承处理惩罚。比方:当碰着a→b→c→d→c→e如许的环路链接, 爬虫就会掉出来, 重复抓取c、d对应的页面。哄骗Visited表, 就能制止这个成果。



免责声明:本文内容由互联网用户自发贡献自行上传,本网站也不承担相关的法律责任。如果您发现本文章中有涉嫌抄袭的内容,请发送邮件至:sales@sznetsoft.com或者至电给本网站进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权的内容。
相关信息
  • QQ好友
  • QQ空间
  • 腾讯微博
  • 新浪微博
  • 人人网
  • 豆瓣网
  • Facebook
  • Twitter
  • linkedin
  • 谷歌Buzz


线

网软通在线


在线客服: 点击这里给我发消息                        

1231.jpg

留言内容