站长朋友都知道搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider我们俗称蜘蛛,它在访问一个网站时,会首先会检查该网站的根域下是否有一个robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您robots.txt中声明 该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
但是很多朋友只知道复制别人给出robots写法,自己却没有真正了解里面的内容是什么意思,其说说起来并不复杂,robots.txt里面通常包含三个规则:
1、User-agent:指定搜索引擎蜘蛛。后面如果是*,那就代表所有的搜索引擎,如果单独写明:Baiduspider,那就是指百度蜘蛛。
2、Disallow :指定禁止收录的地址。后面如果是/,那就是指所有
3、Allow: 指定允许收录的地址
了解了这三个规则,就知道了robots中每一行的含义。我们也就能更有针对性的部署我们的robots文件了,需要注意的是冒号后面必须有一个空格。
例如禁止所有搜索引擎收录:
User-agent: *
Disallow: /
允许所有搜索引擎收录:
User-agent: *
Allow: /
下面分享一个wordpress程序的robots文件写法:
User-agent: *
Disallow: /comments/feed/
Disallow: /*/trackback
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /*?replytocom=
Disallow: /*/comment-page-*
Disallow: /?r=*
Disallow: /?p=*
Disallow: /page/
Allow: /wp-content/uploads/
上面的 User-agent:*意思就是对所有的蜘蛛进行定义,Disallow 是拒绝收录,我想大家都懂的。
本站提供的资源,都来自网络,版权争议与本站无关,所有内容及软件的文章仅限用于学习和研究目的。不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,我们不保证内容的长久可用性,通过使用本站内容随之而来的风险与本站无关,您必须在下载后的24个小时之内,从您的电脑/手机中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如果有侵权之处请第一时间联系我们删除。敬请谅解! E-mail:jiebeih@foxmail.com
暂无评论内容