SEO入门

当前位置:网站优化 >> SEO技术 >> SEO入门 >> 正文

Robots.txt指南

作者:佚名     点击数:     更新时间:2007年12月15日

  Disallow: /AL/Alabama.html
  Disallow: /AL/AR.html
  Disallow: /Az/AZ.html
  Disallow: /Az/bali.html
  Disallow: /Az/bed-breakfast.html
  其实,上面这么多声明行只需用目录选项来替代:
  Disallow: /AL
  Disallow: /Az
  需要注意的是:反斜杠“/“表示禁止搜索引擎进入该目录。如果只有几十个文件需要设置访问权限,那倒也无可厚非。问题是我们发现有一个robots.txt文件中列出了有400k,多达4000个文件。我们只是纳闷看到这么多声明,有多少Spiders会掉头而去。
错误9—自创ALLOW指令
  没有ALLOW指令,只有DISALLOW指令!我们发现有这样的用法:
  User-agent: Spot
  Disallow: /john/
  allow: /jane/
  正确写法应为:
  User-agent: Spot
  Disallow: /john/
  Disallow:
错误10—对声明的目录无反斜杠标识
  例如我们发现有这样的例子:
  User-agent: Spot
  Disallow: john
  对这样的记录Spider该怎么反应?按照RES标准,Spider会将名为“john“的文件和名为“john“的目录都DISALLOW。所以要记得使用“/“来标识所声明的路径(目录)。
  我们还发现,有些网站的优化工作做得真彻底,竟然在其robots.txt中也放了关键词(费解,不明白他们怎么想的)。这些人一定是把他们的robots.txt纯文本文件当作是html文件了。(要记住:在FrontPage下是不可能正确创建robots.txt文件的)
错误11—网络服务器端的错误配置
  为什么对robots.txt文件的调用请求会产生一个二进制文件?只有网络服务器或FTP客户端软件错误设置的情况下才可能发生这种错误。建议大家定期检查自己的robots.txt文件(http://www.mydomain.com/robots.txt)。
服务器/域名“农场”
  搜索引擎检测服务器或域名“农场”(即包含巨量站点)的一个简单途径是看它们的robots.txt。我们发现规模在400到500个域名的大型域名“农场”,其“库”内站点使用都是同一个robots.txt文件。这也就相当于告诉搜索引擎这些使用同一robots.txt文件的站点是相关联的。
Google率先支持通配符:
  Google是第一家能够支持robots.txt中通配符文件扩展名的搜索引擎。例如:
  User-agent: googlebot
  Disallow: *.cgi
  不过注意了,由于目前只有Google能够支持这种格式,所以”USER-AGENT”只能是“Googlebot”。

上一页
本文共 3 页,第  [1]  [2]  [3]  页

推荐阅读
客服中心
Q Q::32554619    慧诚网络为您服务
Q Q:239732701  慧诚网络为您服务
手机:13760399425
电话:0755-84836060
传真:0755-84836060
联系人:唐世君(先生)
E-mail: hchok05@163.com
MSN: hchok05@hotmail.com