robots.txt文件怎么写我来教你
1、什么是robots.txt文件
robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
2、robots.txt怎么写
开始之前先熟悉下写robots的2个标签的含义一个是“允许什么蜘蛛抓取”,另一个就是“禁止抓取什么目录”。
User-agent:(允许什么蜘蛛可以抓取)比如下面的“*”号
User-agent:*(允许所有蜘蛛抓取)
Disallow:(不允许抓取的文件目录)如目录为空就是默认全站都可以抓取。
Disallow:/(禁止全站抓取)
举例说明练习:
(1)允许所有的robot访问,格式如下:
User-agent:*
Disallow:
(2)禁止所有蜘蛛访问网站的任何部分,格式如下:
User-agent:*
Disallow:/
(3)禁止所有蜘蛛访问网站的某几个部分,比如下例中禁止访问001、002、003目录:
User-agent:*
Disallow:/001/
Disallow:/002/
Disallow:/003/
(4)禁止某个搜索引擎蜘蛛的访问,比如下例中的百度蜘蛛:
User-agent:BadBot
Disallow:/
(5)只允许某个蜘蛛的访问,再例举百度蜘蛛:
User-agent:BadBot
Disallow:
User-agent:*
Disallow:/
(6)禁止访问网站中所有的动态页面
User-agent:*
Disallow:/*?*
3、robots.txt放置位置
robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如http://www.baidu.com)时,首先会检查该网站中是否存在http://www.baidu.com/robots.txt这个文件,如果Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。