搜刮引擎支持nofollow和noarchive。
制止搜刮引擎收录的方式
1. 甚么是robots.txt文件?搜刮引擎使用spider法式自动接见互联网上的网页并获得网页信息。spider在接见一个网站时,会起首会检讨该网站的根域下可否有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以大概在您的网站中建立一个robots.txt,在文件中声明该网站中不想被搜刮引擎收录的部份大概指定搜刮引擎只收录特定的部份。
请注意,仅当您的网站包括不愿望被搜刮引擎收录的内容时,才需要使用robots.txt文件。若是您愿望搜刮引擎收录网站上十足内容,请勿创设robots.txt文件。
2. robots.txt文件放在那边?robots.txt文件该当放置在网站根目次下。举例来说,当spider接见一个网站(比如 http://www.abc.com)时,起首会检讨该网站中可否存在http://www.abc.com/robots.txt这个文件,若是 Spider找到这个文件,它就会根据这个文件的内容,来一定它接见权限的范围。
网站 URL 呼应的 robots.txt的 URL
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt
3. 我在robots.txt中设置了制止搜刮引擎跟收录我网站的内容,为何还出现在搜刮引擎跟搜刮了局中?若是其他网站链接了您robots.txt文件中设置的制止收录的网页,那末这些网页依旧大概会出现在搜刮引擎跟的搜刮了局中,响应式网站开发公司,但您的网页上的内容不会被抓取、建入索引和显露,,搜刮引擎跟搜刮了局中展示的仅是其他网站对您相干网页的形貌。
4. 制止搜刮引擎跟踪网页的链接,而只对网页建索引若是您不想搜刮引擎追踪此网页上的链接,且不通报链接的权重,请将此元标志置入网页的 部份:
若是您不想搜刮引擎跟追踪某一条特定链接,搜刮引擎跟还支持更准确的节制,请将此标志间接写在某条链接上:sign in
要赞成其他搜刮引擎跟踪,但仅防止搜刮引擎跟跟踪您网页的链接,请将此元标志置入网页的 部份:
5. 制止搜刮引擎在搜刮了局中显露,网页快照,而只对网页建索引要防止十足搜刮引擎显露,您网站的快照,请将此元标志置入网页的部份:
要赞成其他搜刮引擎显露,快照,但仅防止搜刮引擎跟显露,,请使用以下标志:
注:此标志只是制止搜刮引擎跟显露,该网页的快照,搜刮引擎跟会继续为网页建索引,并在搜刮了局中显露,网页择要。
6. 我想制止百度图片搜刮收录某些图片,该若何设置?制止Baiduspider抓取网站上十足图片、制止或赞成Baiduspider抓取网站上的某种特定花样的图片文件可以大概经由历程设置robots完成,请参考“robots.txt文件用法举例”中的例10、11、12。
7. robots.txt文件的花样"robots.txt"文件包括一条或更多的纪录,这些纪录经由历程空行分隔隔离分散(以CR,CR/NL, or NL作为竣事符),每条纪录的花样以下所示:":"
在该文件中可以大概使用#举行注解,具体使用方式和UNIX中的通例一样。该文件中的纪录泛泛以一行或多行User-agent最早,前面加上多少Disallow和Allow行,具体情况以下:
User-agent:
该项的值用于形貌搜刮引擎robot的名字。在"robots.txt"文件中,若是有多条User-agent纪录说明有多个robot会受 到"robots.txt"的限定,对该文件来说,最少要有一条User-agent纪录。若是该项的值设为*,则对任何robot均有效, 在"robots.txt"文件中,"User-agent:*"如许的纪录只能有一条。若是在"robots.txt"文件中,插手"User- agent:SomeBot"和多少Disallow、Allow行,那末名为"SomeBot"只遭到"User-agent:SomeBot"前面的 Disallow和Allow行的限定。
Disallow:
该项的值用于形貌不愿望被接见的一组URL,这个值可以大概是一条完好的途径,也可以大概是途径的非空前缀,以Disallow项的值开首的URL不会被 robot接见。比方"Disallow:/help"制止robot接见/help.html、/helpabc.html、/help /index.html,而"Disallow:/help/"则赞成robot接见/help.html、/helpabc.html,不克不及接见 /help/index.html。"Disallow:"说明赞成robot接见该网站的十足url,在"/robots.txt"文件中,最少要有一 条Disallow纪录。若是"/robots.txt"不存在大概为空文件,则对十足的搜刮引擎robot,该网站都是开放的。
Allow:
该项的值用于形貌愿望被接见的一组URL,与Disallow项类似,这个值可以大概是一条完好的途径,也可以大概是途径的前缀,以Allow项的值开首的URL 是赞成robot接见的。比方"Allow:/hibaidu"赞成robot接见/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的十足URL默许是Allow的,以是Allow泛泛与Disallow搭配使用,完成赞成接见一部份网页 同时制止接见另外十足URL的功用。
使用"*"and"$":
Baiduspider支持使用通配符"*"和"$"来恍惚婚配url。
"$" 婚配行竣事符。
"*" 婚配0或多个随意率性字符。
8. URL婚配举例Allow或Disallow的值 URL 婚配了局
/tmp /tmp yes
/tmp /tmp.html yes
/tmp /tmp/a.html yes
/tmp /tmp no
/tmp /tmphoho no
/Hello* /Hello.html yes
/He*lo /Hello,lolo yes
/Heap*lo /Hello,lolo no
html$ /tmpa.html yes
/a.html$ /a.html yes
htm$ /a.html no
9. robots.txt文件用法举例例1. 制止十足搜刮引擎接见网站的任何部份
下载该robots.txt文件 User-agent: *
Disallow: /
例2. 赞成十足的robot接见
(大概也可以大概建一个空文件 "/robots.txt") User-agent: *
Allow: /
例3. 仅制止Baiduspider接见您的网站 User-agent: Baiduspider
Disallow: /
例4. 仅赞成Baiduspider接见您的网站 User-agent: Baiduspider
Allow: /
User-agent: *
Disallow: /
例5. 仅赞成Baiduspider和Googlebot接见 User-agent: Baiduspider
Allow: /
User-agent: Googlebot
Allow: /
User-agent: *
Disallow: /
例6. 制止spider接见特定目次
在这个例子中,该网站有三个目次对搜刮引擎的接见做了限定,即robot不会接见这三个目次。需要注意的是对每个目次必需分隔隔离分散声明,而不克不及写成 "Disallow: /cgi-bin/ /tmp/"。 User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例7. 赞成接见特定目次中的部份url User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例8. 使用"*"限定接见url
制止接见/cgi-bin/目次下的十足以".htm"为后缀的URL(包括子目次)。 User-agent: *
Disallow: /cgi-bin/*.htm
例9. 使用"$"限定接见url
仅赞成接见以".htm"为后缀的URL。 User-agent: *
Allow: /*.htm$
Disallow: /
例10. 制止接见网站中十足的静态页面 User-agent: *
Disallow: /*?*
例11. 制止Baiduspider抓取网站上十足图片
仅赞成抓取网页,制止抓取任何图片。 User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
例12. 仅赞成Baiduspider抓取网页和.gif花样图片
赞成抓取网页和gif花样图片,不赞成抓取其他花样图片 User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$
例13. 仅制止Baiduspider抓取.jpg花样图片 User-agent: Baiduspider
Disallow: /*.jpg$