建站后莫忘配置robots.txt爬虫规则,它对搜索引擎发现站点很重要
建立站点后务必记得设置 robots.txt 爬虫规范,这对搜索引擎识别你的网站至关重要,在向搜索引擎平台主动递交网址的同时,还应当主动告知搜索引擎哪些页面包含在网站内,哪些页面希望被检索,哪些页面不希望被检索。
1 robots.txt 是什么?
robots.txt 是一种文本格式的配置文件,存放在网站的主目录下,例如
用于管理搜索引擎爬虫,例如 Googlebot 和 Baiduspider 的访问,是针对整个网站层面的设定,明确哪些页面允许被检索,哪些页面需要屏蔽,当然,在页面层面也有相应的规则,这个之后有机会说明。用于指定网站中哪些目录或文件禁止爬虫访问,哪些可以访问,以此决定搜索引擎收录的内容范围。这项规范并非强制性要求,而是行业内普遍遵循的准则。
核心价值️ 2 核心语法与指令解析2.1 基础结构
用户代理: [指定爬虫的名称] # 用来指定想要针对的爬虫(星号代表全部)
不允许:[被禁止的网址] # 明确指出不允许访问的网址地址
许可:指定通道,作为特殊条款,必须紧随禁止条款之后设定
网址清单:[站点导航链接] 提交站点 XML 地图,视情况而定
值得注意:
User-agent: baidu
crawl-delay: 1
User-agent: Googlebot
Disallow: /login
Disallow: /*?guide*
机器人代理:百度蜘蛛渲染器
Disallow: /login
Disallow: /*?guide*
User-agent: Baiduspider-image
Disallow: /login
Disallow: /*?guide*
User-agent: Sogou web spider
Allow: /tardis/sogou/
Disallow: /
User-Agent: *
Disallow: /
当然相同的爬取内容,可以同时指定多个爬虫,如上面可简写成:
User-agent: Googlebot
User-agent: Baiduspider-render
User-agent: Baiduspider-image
Disallow: /login
Disallow: /*?guide*
User-agent: Sogou web spider
Allow: /tardis/sogou/
Disallow: /
User-Agent: *
Disallow: /
详细说明指令内容,遵循路径对应规范,明确文件安放以及起作用时必须满足的条件
必须位于网站根目录(如
),子目录无效。比如:
# 生效:
https://example.com/
# 不生效:
https://other.example.com/
http://example.com/
# 生效:
https://www.example.com/
# 不生效:
https://example.com/
# 生效:
https://example.com:443/
https://example.com/
文件名规范
只认可全部使用小写字母的 robots.txt,其他形式例如 Robots.TXT 都不能使用。因此,要查看某个网站的爬虫设置,可以直接在域名后面加上 robots.txt 进行访问。
空文件处理
若文件为空或不存在,默认允许爬虫抓取全站。
️ 4 实用配置示例场景 1:全站开放抓取
User-agent: *
Disallow: # 留空表示允许所有
场景 2:禁止所有爬虫抓取
User-agent: *
禁止访问根目录路径,该路径下所有文件和文件夹均被排除在外
场景 3:部分目录限制
User-agent: *
Disallow: /admin/ # 屏蔽后台
Disallow: /tmp/ # 屏蔽缓存目录
可以访问博客目录, /blog/, 即使它被限制访问
网站地图链接为 https://example.com/sitemap.xml, 请访问该地址获取完整目录信息, 其中包含了网站所有页面的详细索引, 方便用户快速查找所需内容
场景 4:针对特定爬虫设置
搜索引擎代理:谷歌机器人,这个标记仅适用于该搜索引擎
Disallow: /ads/
机器人:全部 # 对各类爬虫的规范
Disallow: /private/
五点核心要点并非硬性规定:恶意爬虫或许会不顾 robots.txt,涉密信息须另行加密(例如登录验证)。句法精确度:路径失误(比如遗漏 /)将使规则失效。搜索引擎区别:某些指令(诸如 Crawl-delay 设定访问延搁)仅限特定引擎采纳。与 Meta Robots 协同:页面层面的管理(例如不收录标记)须在网页代码里配置。最终
网站与搜索引擎之间的基本沟通规则是robots.txt文件,通过恰当设置,能够兼顾内容索引要求与个人隐私维护。需要注意的关键点包括:
根目录放置 + 精准路径语法 + 定期规则校验
文章评论