您当前的位置:首页>seo资源>搜索引擎统一robots文件标准

搜索引擎统一robots文件标准

搜索引擎三巨头打的不亦乐乎,但偶尔也合作一下。去年google,雅虎,微软就合作,共同遵守统一的sitemaps标准。前两天三巨头又同时宣布,共同遵守的robots.txt文件标准。google,雅虎,微软各自在自己的官方博客上发了一篇帖子,公布三家都支持的robots.txt文件及meta标签的标准,以及一些各自特有的标准。下面做一个总结。

  三家都支持的robots文件记录包括:

  disallow - 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取所有的网站文件:

user-agent: *
disallow: /

  allow - 告诉蜘蛛应该抓取某些文件。allow和disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:

user-agent: *
disallow: /ab/
allow: /ab/cd

  $通配符 - 匹配url结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的url:

user-agent: *
allow: .htm$

  *通配符 - 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:

user-agent: *
disallow: /*.htm

  sitemaps位置 - 告诉蜘蛛你的网站地图在哪里,格式为:

sitemap: <sitemap_location>

  三家都支持的meta标签包括:

  noindex - 告诉蜘蛛不要索引某个网页。

  nofollow - 告诉蜘蛛不要跟踪网页上的链接。

  nosnippet - 告诉蜘蛛不要在搜索结果中显示说明文字。

  noarchive - 告诉蜘蛛不要显示快照。

  noodp - 告诉蜘蛛不要使用开放目录中的标题和说明。

  上面这些记录或标签,现在三家都共同支持。其中通配符好像以前雅虎微软并不支持。百度现在也支持disallow,allow及两种通配符。meta标签我没有找到百度是否支持的官方说明。

  只有google支持的meta标签有:

  unavailable_after - 告诉蜘蛛网页什么时候过期。在这个日期之后,不应该再出现在搜索结果中。

  noimageindex - 告诉蜘蛛不要索引页面上的图片。

  notranslate - 告诉蜘蛛不要翻译页面内容。

  雅虎还支持meta标签:

  crawl-delay - 允许蜘蛛延时抓取的频率。

  noydir - 和noodp标签相似,但是指雅虎目录,而不是开放目录。

  robots-nocontent - 告诉蜘蛛被标注的部分html不是网页内容的一部分,或者换个角度,告诉蜘蛛哪些部分是页面的主要内容(想被检索的内容)。

  msn还支持meta标签:

  crawl-delay

  另外提醒大家注意的是,robots.txt文件可以不存在,返回404错误,意味着允许蜘蛛抓取所有内容。但抓取robots.txt文件时却发生超时之类的错误,可能导致搜索引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者里面有什么内容,这与确认文件不存在是不一样的。


相关文章:
搜索引擎优化中的方法与操作
关于分析竞争对手网站的seo优化
关于单页面优化方法的相关问题
网站搜索排名提高的方法
seo核心seo优化的竞争力
seo技术之meta标签的规范
seo优化网页页面的几个要点
为什么要进行网站推广?
真正有效的快速收录新站方法(新手篇)
内容优化:关键词提示工具
如何针对msn搜索进行网站优化
网站维护有哪些
网站持续更新原创文章的五大技巧
网站推广三部曲:软文、炒作、seo
网络营销2.0让中小企业获得实在的效果
站长网站搜索引擎指令查询大全
google优化提高域名信任度的几个简单方法
免费搜索引擎登陆入口大全
10种提升站点蜘蛛爬行的方法
诚信是seo的最基本法则
网站推广宣传完全攻略
中文dmoz目录
如何科学选择推广关键词
网站优化过程中的关键点:关键词的选择
seo 操作需要注意的十个方面
google排名的重要性
企业网络营销先要认清网络营销环境
google排名内部优化攻略
网站建设中广告的优势
如何避免网站垃圾文件
搜索引擎非常喜欢回头客高的网站
新建网站seo流量原则
简单分析网站的几种盈利模式
关键词分析的5大原则
seo学习笔记
google一个做搜索的朋友提的建议
seo静观其变
教你创建google网站地图sitemap.xml
搜索引擎统一robots文件标准
seo菜鸟需要掌握哪些基本seo技巧?

copyright 2007-2008  北京沃赛广告有限责任公司  all rights reserved.
业务电话:010-62558672 联系人:张先生 e-mail:wosainet@126.com
联系地址:北京市海淀区双榆树北路知春里13#
京icp备06022449号 
本站关键字:网站优化 google优化 百度优化 搜索引擎优化 seo优化