网页设计公司,网页制作公司,网站建设公司,
爬虫“黑洞”。爬虫在汇集藏文网页的进程中, 必须斟酌大概泛起的“黑洞”情况。
爬虫黑洞是指, 在抓取一张网页的链接时, 链接自己是一个无穷轮回, 导致爬虫抓取时跟着轮回, 浪掷本钱。偶然一些URL看起来分歧, 但理论指向统一张网页, 也会使爬虫堕入重复抓取的地步。
为了制止爬虫误入黑洞, 通俗采用两种计谋。一是爬虫躲避静态网页, 由于静态网页经常会把爬虫带入黑洞。辨认静态网页时, 只需要判别URL中是否是泛起成果, 含问号的就是静态网页。二是哄骗Visited表纪录曾经会见过的URL, 通常碰着新的URL存在于Visited表, 就废弃对该URL的继承处理惩罚。比方:当碰着a→b→c→d→c→e如许的环路链接, 爬虫就会掉出来, 重复抓取c、d对应的页面。哄骗Visited表, 就能制止这个成果。
免责声明:本文内容由互联网用户自发贡献自行上传,本网站也不承担相关的法律责任。如果您发现本文章中有涉嫌抄袭的内容,请发送邮件至:sales@sznetsoft.com或者至电给本网站进行举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权的内容。