主页 > SEO基础教程 > Robots协议

Robots协议

        网站Robots文件是一个文本文件,一般以Robots.txt形式存放在网站根目录下,如本站的robots文件:www.seo-9.com/robotx.txt。大部分搜索引擎抓取网站内容时,都会先在根目录寻找是否有robots.txt文件,因为Robots就是网站和搜索引擎的一个协议。网站不希望搜索引擎抓取的内容,搜索引擎是不会抓取的,而网站需要抓取的内容可以写出来,也可以不写。
 
        那么我们来看看,它是怎么样禁止别的搜索引擎收录他的数据和抓取数据的。
 
        User-agent:用户代理,用户信息的标识。即为此访问用户是水,一般写蜘蛛的名称。例如,Aaiduspider、Googlebot、MSNBOT、Sogou web spider等,它们分别代表百度蜘蛛、谷歌机器人、MSN机器人、搜狗蜘蛛。本站用的*号,此为通配符。意思就是所有蜘蛛皆可抓取。
 
        Disallow:拒绝收录,即要组织搜索引擎抓取的内容。可以写文件的名称,也可以是整个目录。例如Disallow: / data/。蜘蛛不允许抓取data文件夹下的内容。
 
        Allow:允许收录,即统一搜索引擎检索和收录内容。这里需要说明的是,即使把网站内容全部写上,搜索引擎也不一定会全部收录,这里只是告诉收录引擎这些内容是允许被收录的。因为默认的情况下,搜索引擎即认为允许收录,所以写上Allow和不谢是没差别的。
 
       Sitemap:这个指的是网站地图,告诉蜘蛛,这个页面是网站地图页面,所有的重要链接都在此页面。可以促使搜索引擎抓取。
 
      在Robots文件中还有一些通配符:*、$等字符,$应该放在尾部。它们有替代和类的意思。即标识某一类文件,例如Allow: *.png$表示可以抓取所有png格式的图片。
 
      网站内允许收录和禁止的页面,通过Robots文件可以与搜索引擎达成协议。我们可以利用这个协议,将我们的非目标页面进行禁止收录,从而减少权重的分散。
 

   本文由长沙seo阿超原创首发。(转载注明出处)

相关推荐