robots.txt是什么?
本文目录导航:
robots.txt是什么?
是网站根目录下的一份文本文件,它旨在指导搜索引擎蜘蛛,哪些页面可以访问,哪些不能。
通过此文件,网站管理员能定义禁止搜索引擎爬虫访问的页面,亦能限制爬虫访问频率。
此文件依据机器人排除协议(Robot Exclusion Protocol)或称为robots协议来操作。
内容通常包含几个核心元素。
重要的是,虽然文件提供指引,但并非强制执行规则。
不法的网络爬虫或恶意软件可能无视此文件规定,因此,敏感信息应避免存于禁止访问页面。
网站robots文件的作用是什么?
文件的作用:
1、屏蔽网站内的死链接。
2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。
3、阻止搜索引擎索引网站隐私性的内容。
因此建立文件是很有必要的,网站中重复的内容、页面或者404信息过多,搜索引擎蜘蛛就会认为该网站价值较低,从而降低对该网站的“印象分”,这就是我们经常听到的“降低权重”,这样网站的排名就不好了。
文件需要注意的最大问题是:必须放置在一个站点的根目录下,而且文件名必须全部小写。
文件的基本语法只有两条,第一条是:User-agent,即搜索引擎蜘蛛的名称;第二条是:Disallow,即要拦截的部分。
下面我们看一下撰写基本的文件所需要知道的一些语法和作用。
(1),允许所有的搜索引擎访问网站的所有部分或者建立一个空白的文本文档,命名为。
User-agent:*Disallow:或者User-agent:*Allow:/
(2),禁止所有搜索引擎访问网站的所有部分。
User-agent:*Disallow:/
(3),禁止网络索引你的网站。
User-agent:BaiduspiderDisallow:/
(4),禁止Google索引你的网站。
User-agent:GooglebotDisallow:/
(5),禁止除网络以外的一切搜索引擎索引你的网站。
User-agent:BaiduspiderDisallow:User-agent:*Disallow:/
(6),禁止除Google以外的一切搜索引擎索引你的网站。
User-agent:GooglebotDisallow:User-agent:*Disallow:/
(7),禁止和允许搜索引擎访问某个目录,如:禁止访问admin目录;允许访问images目录。
User-agent:*Disallow:/admin/Allow:/images/
(8),禁止和允许搜索引擎访问某个后缀,如:禁止访问admin目录下所有php文件;允许访问asp文件。
User-agent:*Disallow:/admin/*$Allow:/admin/*$
(9),禁止索引网站中所有的动态页面(这里限制的是有“?”的域名,如?id=8)。
User-agent:*Disallow:/*?*
4.5 什么是Robots.txt
是一个文件,这个文件告诉搜索引擎蜘蛛不要抓取网站的某些页面或某些部分。
大多数主流的搜索引擎(包括Google,Bing和Yahoo)都认可并接受的请求。
大多数网站不需要文件,因为Google通常可以找到网站上所有重要的页面,并为它们编制索引。
它们能够自动忽略不重要的页面和重复的页面。
然而,您要使用文件的主要原因有三个。
阻止非公开页面被爬取:有时候在网站上,有些页面不想被索引。
比如,您可能有一个临时的、还没有完成的页面,或许是登录页面。
这些页面必须存在,但是,你不希望其他人访问这些页面。
在这种情况下,您可以使用文件,阻止爬虫或机器人爬取页面。
最大限度地提高抓取配额:如果遇到了抓取配额问题,就无法为所有的页面都建立索引。
可以通过屏蔽不重要的页面,这样就让Google机器人将抓取配额花费在实际需要的地方。
阻止对资源建立索引:元指令(meta directives)与一样,可以阻止页面被建立索引。
但是,元指令不适用于多媒体资源,例如PDF和图像。
此时,就需要上场。
划重点将告诉搜索引擎爬虫,不要爬取特定的页面。
您可以检查您在Google Search Console中已建立索引的页面数。
如果数量与您想要建立索引的页面数量一致,那就无需使用文件。
但是,如果这个数量比预期的要多(并且你注意到有一部分URL不应该被索引),这就要为您的网站创建文件。
第一步是创建文件。
这是一个文本文件,您实际上可以使用Windows记事本创建一个文件。
无论最终如何制作文件,它的格式都是完全相同的:User-agent: X Disallow: Y用户代理(User-agent)是正在与您交谈的特定机器人。
“Disallow(不允许)”后面的所有部分,都是您不想让建立索引的页面或者部分页面。
这是一个例子:User-agent: googlebot Disallow: /images它将告诉Googlebot不要索引您网站的图片文件。
您还可以使用星号(*),和所有光顾您网站的爬虫进行对话。
看这个例子:User-agent: * Disallow: /images星号“*”,它将告诉所有蜘蛛不要爬取您的图像文件夹。
这只是使用文件的场景之一。
这篇Google的官方指南详细介绍了阻止/允许漫游器抓取您网站不同页面的不同规则。
当您创建了之后,接下来就该使用它了。
从技术上讲,您可以将文件放置在网站的任何主目录中。
但是,为了增加发现文件的几率,建议将其放置在:(请注意,您的文件区分大小写。
因此请确保在文件名中使用小写的“r”)正确设置文件非常重要。
一个错误,可能会让您的整个网站取消索引。
幸运的是,有一款工具,可以检查是否设置错误。
它就是:Google机器人测试工具。
机器人测试工具/webmasters/t...它显示了您的文件…以及发现的错误和警告:如图所示,我们阻止了Spider爬取我们的WordPress管理页面。
我们还使用阻止WordPress自动生成的标记页被抓取(以限制重复内容)。
当我们可以使用“noindex”元标签来阻止页面被索引,为何还要使用?之前我们提到过:noindex标签很难禁止多媒体资源(例如视频和PDF)被建立索引。
还有,如果您有几千个页面要禁止被索引。
使用要比在每个页面上手动添加noindex标签容易得多。
在某些极端情况下,Google机器人着陆到您使用noindex标签的网页上,会浪费抓取配额。
除了这三种情况之外,我建议使用元指令代替。
它更容易实现。
而且发生灾难的可能性也较小(例如禁止整个站点被索引)。
作者:光头强(Brian Dean)翻译:叶赛文原贴(英文)/hub/seo/r...
文章评论