新闻动态

首页  >  新闻动态  >  行业新闻

网站制作中关于搜索引擎蜘蛛的禁止机制

2020-11-26 14:43:06 eye957

    部分站长在有些时候并不希望网站的内容被搜索引擎蜘蛛抓取并且呈现在搜索结果中,比如网站的后台根目录,付费和登陆页面等,所以,站长们在制作网站的时候就要学会适当的使用ROBOTS文件或者mate标签.


    Robots文件的禁止机制


    当搜索引擎到了一个站点的时候,会先看看这个网站的根目录下有没有ROBOTS.TXT文件,这是一个文本文件.用来告诉搜索引擎这个网站里面的那些内容或者是一些特定的部分不想被搜索引擎抓取,因为很多是对排名没有意义的页面或者是一些牵涉到网站隐私的部分.如果没有发现这个文件或者是里面的内容为空,那么搜索引擎就认为这个网站的所有的东西自己都能够进行访问并抓取.


    关键字段是USER-AGENT:一般使用*代表所有的搜索引擎,或者也可以指定特定的搜索引擎的蜘蛛.Disallow:后面写指定的禁止访问收录的文件目录,如果不写的话,就表示允许.需要注意的是如果有好几个目录,一定要分开写,每一个不想让收录的页面都使用一个DISALLOW.


    目前,绝大部分的搜索引擎都会遵守这个指令,不过被这个指令禁止搜录的页面的网址还能够以URL的形式在搜索的结果当中.要想让URL也完全的不出现,最好在页面上使用METAROBOTS标签.所以,建议各位在做网站建设的朋友们根据需要自己的需要来设置好,千万不能设置错了.


    METAROBOTS标签的禁止机制


    这个标签是网页META标签的一种,主要作用是让搜索引擎不要索引这个页面的内容.meta的名称是robots,内容是写不想被搜索跟踪的内容.比如下面:


    NOINDEX:让搜索引擎不要索引这个页面;


    NOFOLLOW:让搜索引擎不要追踪这个页面上的链接;


    NOARCHIVE:让搜索引擎不显示网页快照.


    这里需要重点强调的是,NOINDEX使用之后,页面还是能被抓取,不会索引这个页面,但搜索引擎还是能够追踪网页上的一些链接,也能够通过链接传递权重.


    很多时候,一些行业的朋友由于记错了或者理解的不够牢,会出现一些写错了的情况,这里提醒大家,哪怕是不写这个也千万不要写错了。