查找引擎默许的恪守robots.txt协议,创立robots.txt文本文件放至网站根目录下,修改代码如下:
User-agent: *Disallow: /
经过以上代码,即可告知查找引擎不要抓取采纳录入本网站,留意慎用如上代码:这将制止全部查找引擎拜访网站的任何部分。
怎么只制止百度查找引擎录入抓取网页
1、修改robots.txt文件,规划符号为:
User-agent: BaiduspiderDisallow: /
以上robots文件将完成制止全部来自百度的抓取。
这儿说一下百度的user-agent,Baiduspider的user-agent是什么?百度各个产品运用不同的user-agent:产品名称 对应user-agent 无线查找 Baiduspider 图片查找 Baiduspider-image 视频查找 Baiduspider-video 新闻查找 Baiduspider-news 百度搜藏 Baiduspider-favo 百度联盟 Baiduspider-cpro 商务查找 Baiduspider-ads 网页以及其他查找 Baiduspider
你能够依据各产品不同的user-agent设置不同的抓取规矩,以下robots完成制止全部来自百度的抓取但答应图片查找抓取/image/目录:
User-agent: BaiduspiderDisallow: /
User-agent: Baiduspider-imageAllow: /image/
请留意:Baiduspider-cpro和Baiduspider-ads抓取的网页并不会建入索引,仅仅履行与客户约好的操作,所以不恪守robots协议,这个就需求和百度的人联络才干处理了。
怎么只制止Google查找引擎录入抓取网页,办法如下:
修改robots.txt文件,规划符号为:
User-agent: googlebotDisallow: /
修改robots.txt文件
查找引擎默许的恪守robots.txt协议
robots.txt文件放在网站根目录下。
举例来说,当查找引擎拜访一个网站时,首先会查看该网站根目录中是否存在robots.txt这个文件,假如查找引擎找到这个文件,它就会依据这个文件里的内容,来确认它抓取的权限的规模。
User-agent:该项的值用于描绘查找引擎robot的姓名,在”robots.txt”文件中,假如有多条User-agent记载阐明有多个robot会遭到该协议的约束,对该文件来说,至少要有一条User-agent记载。假如该项的值设为*,则该协议对任何机器人均有用,在”robots.txt”文件中,”User-agent:*”这样的记载只能有一条。
Disallow:该项的值用于描绘不期望被拜访到的一个URL,这个URL能够是一条完好的途径,也能够是部分的,任何故Disallow最初的URL均不会被robot拜访到。例如”Disallow:/help”对/help.html 和/help/index.html都不答应查找引擎拜访,而”Disallow:/help/”则答应robot拜访/help.html,而不能拜访/help/index.html。任何一条Disallow记载为空,阐明该网站的全部部分都答应被拜访,在”/robots.txt”文件中,至少要有一条Disallow记载。假如”/robots.txt”是一个空文件,则关于全部的查找引擎robot,该网站都是敞开的。
下面举几个robots.txt用法的比方:
User-agent: *Disallow: /--------制止全部查找引擎拜访网站的全部部分
User-agent: BaiduspiderDisallow: /---------制止百度录入全站User-agent:
GooglebotDisallow: /----------制止Google录入全站
User-agent: GooglebotDisallow:User-agent: *Disallow: /---------制止除Google外的全部查找引擎录入全站
User-agent: BaiduspiderDisallow:User-agent: *Disallow: /---------制止除百度外的全部查找引擎录入全站
User-agent: *Disallow: /css/Disallow: /admin/---------制止全部查找引擎拜访某个目录(例如制止根目录下的admin和css)
第二种、网页代码办法
在网站主页代码<head>与</head>之间,参加<meta name="robots" content="noarchive">代码,此符号制止查找引擎抓取网站并显现网页快照。在网站主页代码<head>与</head>之间,参加<meta name="Baiduspider" content="noarchive">即可制止百度查找引擎抓取网站并显现网页快照。在网站主页代码<head>与</head>之间,参加<meta name="googlebot" content="noarchive">即可制止谷歌查找引擎抓取网站并显现网页快照。
其他当咱们的需求很奇怪的时分,比方下面这几种状况:
1. 网站现已加了robots.txt,还能在百度查找出来?
由于查找引擎索引数据库的更新需求时刻。尽管Baiduspider现已中止拜访您网站上的网页,但百度查找引擎数据库中现已树立的网页索引信息,或许需求数月时刻才会铲除。其他也请查看您的robots装备是否正确。假如您的回绝被录入需求十分急切,也能够经过投诉渠道反应恳求处理。
2. 期望网站内容被百度索引但不被保存快照,我该怎么做?
Baiduspider恪守互联网meta robots协议。您能够使用网页meta的设置,使百度显现只对该网页建索引,但并不在查找成果中显现该网页的快照。和robots的更新相同,由于查找引擎索引数据库的更新需求时刻,所以尽管您现已在网页中经过meta制止了百度在查找成果中显现该网页的快照,但百度查找引擎数据库中假如现已树立了网页索引信息,或许需求二至四周才会在线上收效。
期望被百度索引,可是不保存网站快照,如下代码处理:
<meta name="Baiduspider" content="noarchive">假如要制止全部的查找引擎保存你网页的快照,那么代码便是下面的:<meta name="robots" content="noarchive">
常用的一些代码组合:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:能够抓取本页,并且能够顺着本页持续索引其他链接
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,可是能够顺着本页抓取索引其他链接
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:能够抓取本页,可是不许顺着本页抓取索引其他链接
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引其他链接