由于现在免费的网站程序越来越成熟,利用网站程序一天就可以做很多个网站,大家也都喜欢在线做网站,就是直接把网站程序通过FTP工具上传到服务器空间,安装设置好后就开始添加内容,但是由于网站在规划设计阶段总还不是那么完美,一些东西还没有完全确定下来之前网站经常需要修改一些东西,而做SEO的人都知道,百度或者谷歌对于经常变动的新网站通常的做法都是放入观察期,因为搜索引擎会觉得你的网站还不稳定,所以很多人就想到了设置robots.txt文件来禁止搜索引擎对于网站更新的内容进行抓取,等网站完全设计好后再进行相应的设置或者直接删除这个文件,允许搜索引擎抓取我们的网站页面。
这个文件能够帮我们很大的忙,在服务器下面没有,我们可以在本地编写好之后上传到服务器根目下,下面给大家举例它的有关功能以及编写方法。(注意我的语句大小写,大小写必须要一致,因为这个文件区分大小写。)
(允许所有搜索引擎抓取任何内容)
User-agent:*
Disallow:
(禁止所有搜索引擎抓取任何内容)
User-agent:*
Disallow:/
(告诉所有搜索引擎不爬行aaa跟bbb目录下的这是一个神奇的网站。。。内容和123.html文件)
User-agent:*
Disallow:/aaa/
Disallow:/bbb/
Disallow:/这是一个神奇的网站。。。/123.html
(告诉除百度意外所有搜索引擎不准爬aaa目录下的123.htm文件)
User-agent:Baiduspider
Disallow:
User-agent:*
Disallow:/aaa/
Disallow:123.htm
(告诉搜索引擎不准爬aaa目录和文件,但是可以爬aaa目录下bbb的内容)
User-agent:*
Disallow:/aaa/
Allow:/aaa/bbb/
(告诉谷歌允许抓取所有.html为后缀的URL,不允许百度抓取所有以.html为后缀的URL,禁止所有所有搜索引擎抓取.jpg格式的文件)
User-agent:googlebot
Allow:.html$
User-agent:baiduspider
Disallow:.html$
User-agent:*
Disallow:.jpg$
(告诉蜘蛛禁止抓取任何带.asp后缀的文件)
User-agent:*
Disallow:/*.asp
以上是robots.txt文件在网站中作用,供大家借鉴。
文章作者:admin
本文地址:http://www.xueseo.com/robots-txt
版权所有 © 转载时必须以链接形式注明作者和原始出处!