首页 > 新闻动态 > 技术教程

制止搜索引擎录入网站内容的几种办法（如何禁止网站被搜索引擎收

2022-12-25 15:58:16 eye

2054

查找引擎默许的恪守robots.txt协议，创立robots.txt文本文件放至网站根目录下，修改代码如下:

User-agent: *Disallow: /

经过以上代码，即可告知查找引擎不要抓取采纳录入本网站，留意慎用如上代码：这将制止全部查找引擎拜访网站的任何部分。

怎么只制止百度查找引擎录入抓取网页

1、修改robots.txt文件，规划符号为:

User-agent: BaiduspiderDisallow: /

以上robots文件将完成制止全部来自百度的抓取。

这儿说一下百度的user-agent，Baiduspider的user-agent是什么？百度各个产品运用不同的user-agent：产品名称对应user-agent 无线查找 Baiduspider 图片查找 Baiduspider-image 视频查找 Baiduspider-video 新闻查找 Baiduspider-news 百度搜藏 Baiduspider-favo 百度联盟 Baiduspider-cpro 商务查找 Baiduspider-ads 网页以及其他查找 Baiduspider

你能够依据各产品不同的user-agent设置不同的抓取规矩，以下robots完成制止全部来自百度的抓取但答应图片查找抓取/image/目录：

User-agent: BaiduspiderDisallow: /

User-agent: Baiduspider-imageAllow: /image/

请留意：Baiduspider-cpro和Baiduspider-ads抓取的网页并不会建入索引，仅仅履行与客户约好的操作，所以不恪守robots协议，这个就需求和百度的人联络才干处理了。

怎么只制止Google查找引擎录入抓取网页，办法如下：

修改robots.txt文件，规划符号为:

User-agent: googlebotDisallow: /

修改robots.txt文件

查找引擎默许的恪守robots.txt协议

robots.txt文件放在网站根目录下。

举例来说，当查找引擎拜访一个网站时，首先会查看该网站根目录中是否存在robots.txt这个文件，假如查找引擎找到这个文件，它就会依据这个文件里的内容，来确认它抓取的权限的规模。

User-agent:该项的值用于描绘查找引擎robot的姓名，在”robots.txt”文件中，假如有多条User-agent记载阐明有多个robot会遭到该协议的约束，对该文件来说，至少要有一条User-agent记载。假如该项的值设为*，则该协议对任何机器人均有用，在”robots.txt”文件中，”User-agent:*”这样的记载只能有一条。

Disallow:该项的值用于描绘不期望被拜访到的一个URL，这个URL能够是一条完好的途径，也能够是部分的，任何故Disallow最初的URL均不会被robot拜访到。例如”Disallow:/help”对/help.html 和/help/index.html都不答应查找引擎拜访，而”Disallow:/help/”则答应robot拜访/help.html，而不能拜访/help/index.html。任何一条Disallow记载为空，阐明该网站的全部部分都答应被拜访，在”/robots.txt”文件中，至少要有一条Disallow记载。假如”/robots.txt”是一个空文件，则关于全部的查找引擎robot，该网站都是敞开的。

下面举几个robots.txt用法的比方：

User-agent: *Disallow: /--------制止全部查找引擎拜访网站的全部部分

User-agent: BaiduspiderDisallow: /---------制止百度录入全站User-agent:

GooglebotDisallow: /----------制止Google录入全站

User-agent: GooglebotDisallow:User-agent: *Disallow: /---------制止除Google外的全部查找引擎录入全站

User-agent: BaiduspiderDisallow:User-agent: *Disallow: /---------制止除百度外的全部查找引擎录入全站

User-agent: *Disallow: /css/Disallow: /admin/---------制止全部查找引擎拜访某个目录（例如制止根目录下的admin和css）

第二种、网页代码办法

在网站主页代码<head>与</head>之间，参加<meta name="robots" content="noarchive">代码，此符号制止查找引擎抓取网站并显现网页快照。在网站主页代码<head>与</head>之间，参加<meta name="Baiduspider" content="noarchive">即可制止百度查找引擎抓取网站并显现网页快照。在网站主页代码<head>与</head>之间，参加<meta name="googlebot" content="noarchive">即可制止谷歌查找引擎抓取网站并显现网页快照。

其他当咱们的需求很奇怪的时分，比方下面这几种状况:

1. 网站现已加了robots.txt，还能在百度查找出来？

由于查找引擎索引数据库的更新需求时刻。尽管Baiduspider现已中止拜访您网站上的网页，但百度查找引擎数据库中现已树立的网页索引信息，或许需求数月时刻才会铲除。其他也请查看您的robots装备是否正确。假如您的回绝被录入需求十分急切，也能够经过投诉渠道反应恳求处理。

2. 期望网站内容被百度索引但不被保存快照，我该怎么做？

Baiduspider恪守互联网meta robots协议。您能够使用网页meta的设置，使百度显现只对该网页建索引，但并不在查找成果中显现该网页的快照。和robots的更新相同，由于查找引擎索引数据库的更新需求时刻，所以尽管您现已在网页中经过meta制止了百度在查找成果中显现该网页的快照，但百度查找引擎数据库中假如现已树立了网页索引信息，或许需求二至四周才会在线上收效。

期望被百度索引，可是不保存网站快照，如下代码处理：

常用的一些代码组合：

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">：能够抓取本页，并且能够顺着本页持续索引其他链接

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">：不许抓取本页，可是能够顺着本页抓取索引其他链接

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">：能够抓取本页，可是不许顺着本页抓取索引其他链接

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">：不许抓取本页，也不许顺着本页抓取索引其他链接

特价仿站

网站改版

网站定制

技术服务

域名注册

优化排名

快排优化

整站权重提升

几度CMS优化工具

DNS高防云分析

DDOS防护

漏洞扫描

安全众测

智能电销机器人

几度shop

几度chain

几度分发

几度直播

首页 > 新闻动态 > 技术教程

制止搜索引擎录入网站内容的几种办法（如何禁止网站被搜索引擎收

相关新闻

热门推荐

Gmail谷歌邮箱如何开启SMTP/POP

选择合肥网站建设公司需要注意什么？网站建设通常会出现哪些问题

可持续SEO：几度cms教您如何专注于持久的SEO策略！

几度cms v2.0的模板如何安装？