网站SEO诊断中的特殊文件robots.txt文件注意事项
在网站基本结构的诊断上,子帆已经从《全站TKD部署与优化技巧》和《URL标准化设置及常见问题》进行了分析。 接下来,我们将从网站上的特殊文件 robots.txt 继续。 探索网站SEO诊断中的基本结构优化。
我们都知道,搜索引擎利用蜘蛛程序自动访问互联网上的网页,获取网页信息。 当蜘蛛访问一个网站时,它首先会检查网站根域下是否有一个名为robots.txt的纯文本文件。 该文件用于指定蜘蛛在您网站上的爬行范围。 您可以在网站中创建 robots.txt,并在文件中声明您不希望搜索引擎包含的网站部分或指定搜索引擎仅包含特定部分。 所以这将是我们网站SEO诊断检查的第一个要素,因为一旦我们不小心定义了错误的robots.txt文件,该网站可能会从搜索引擎结果中消失。 下面子凡会列出需要注意的事项,还有robots.txt文档的详细书写方法和robots书写的例子也都收集和扩展。 一些主要的搜索引擎蜘蛛名称也被收集和扩展。
1.网站robots.txt文件注意事项
1、robots.txt文件必不可少
无论您的网站是否有需要禁止搜索引擎抓取的目录或页面,子凡都建议您添加robots.txt文件,因为当搜索蜘蛛发现robots.txt文件不存在时,会出现404错误日志将在服务器上生成。 ,从而增加了服务器的负载,所以在站点中添加robots.txt文件仍然很重要。
2. 命名robots.txt文件
可能很多人都习惯首字母大写,有时包括Zifan,所以robots.txt文件中的名字必须全部小写。
3.Robots.txt文件位置
Robots.txt必须放置在站点的根目录中。 如果放在二级目录或者其他位置,搜索引擎抓取时会被忽略。
4. 编写robots文件的注意事项
在编写这些Robots规则语句时,要特别注意冒号(:)和(/)之间必须有一个空格字符。 如果不加这个空格是不行的,冒号需要用半角英文输入。 ,否则无效。
5. robots规则首字母大写
robots文件规则的书写方式中,每行规则中的关键字首字母大写,如:User-agent、Disallow、Allow、Sitemap
6. 机器人规则符号的区别
屏蔽目录时,如果想阻止某个目录的爬取,必须注意目录名中的“/”。 不带“/”,表示禁止访问该目录页面及该目录下的页面,带“/”,表示要进入被阻止目录中的内容页面,这两点一定要区分清楚。
7.在robots中添加网站地图链接
为了让搜索引擎更快的收录我们的内部页面,我们通常会制作一个xml的百度地图或者谷歌地图,Sitemap:网站地图。 该命令可以快速引导搜索引擎蜘蛛到您的地图页面,对网站进行地图绘制。 要抓取的页面。 当网站上的死链接太多处理起来很麻烦时,我们可以使用robots来屏蔽这些页面,从而防止网站因死链接而被百度降级。
2、网站robots.txt语句详细书写方法
User-agent: * 这里的*代表所有搜索引擎类型,*是通配符
Disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录。
禁止:/cgi-bin/*.htm 禁止访问/cgi-bin/目录下所有以“.htm”为后缀的URL(包括子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的 URL
Disallow: /.jpg$ 禁止抓取网页上所有.jpg格式图片
Disallow:/a/b.html 禁止爬取a文件夹下的b.html文件。
允许:/cgi-bin/ 这里的定义是允许爬取cgi-bin目录下的目录。
allow: /tmp 这里的定义是允许爬取tmp整个目录
允许:.htm$ 只允许访问以“.htm”为后缀的 URL。
允许:.gif$允许抓取网页和gif格式图片
站点地图:站点地图告诉爬虫该页面是站点地图
3.如何编写网站robots.txt的示例
1.阻止所有搜索引擎访问网站的所有部分
用户代理: *
不允许: /
2. 禁止百度索引您的网站
用户代理:Baiduspider
不允许: /
3. 禁止 Google 将您的网站编入索引
用户代理:Googlebot
不允许: /
4. 禁止除 Google 之外的所有搜索引擎对您的网站建立索引。
用户代理:Googlebot
不允许:
用户代理: *
不允许: /
5.禁止除百度以外的所有搜索引擎索引您的网站
用户代理:Baiduspider
不允许:
用户代理: *
不允许: /
6.禁止蜘蛛访问目录
用户代理: *
禁止:/css/
7. 允许访问目录中的某些特定URL
用户代理: *
允许:/admin/html
允许:/images/index
禁止:/admin/
禁止:/图像/
4、各大搜索引擎常见的蜘蛛名称
1.百度蜘蛛:Baiduspider、Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。 注意:上面列出的两种最常见的百度蜘蛛类型是Baiduspider和Baiduspider-image。
2. Google Spider:Googlebot,这个争议较小,但也有人说是GoogleBot。 Google Spider的最新名称是“兼容;Googlebot/2.1;”。 我还发现了 Googlebot-Mobile。 从名字来看,它抓取的是wap内容。
3、360 Spider:360Spider,是一款非常“勤奋爬行”的蜘蛛。
4、搜狗蜘蛛:搜狗新闻蜘蛛,搜狗蜘蛛还包括以下几种:搜狗网络蜘蛛、搜狗inst蜘蛛、搜狗蜘蛛2、搜狗博客、搜狗新闻蜘蛛、搜狗猎户座蜘蛛,(参考一些网站的robots文件,名称搜狗蜘蛛的可以用搜狗总结,无法验证也不知道是否有效)看看最权威的百度的robots.txt。 给搜狗蜘蛛耗费了很多字节,占用了很大的地盘。
5.MSN蜘蛛:MSNBot
6. Bing Spider:bingbot,在线(兼容;bingbot/2.0;)
7.一搜蜘蛛:一搜蜘蛛
8.Alexa蜘蛛:ia_archiver
9.EasouSpider:EasouSpider
10.即时蜘蛛:JikeSpider
11.EtaoSpider:EtaoSpider
写在最后:关于网站的robots.txt文件的优化和设置。 其实子凡之前在雷雪的博客上发表过,但是对机器人的分析还不是很全面,包括前几天子凡分享的《设置WordPress的最佳设置》《最佳Robots.txt规则》,所以子凡写这一系列的网站SEO诊断,用最详细的文章来讲解,才能全面。 如果你有耐心慢慢熟悉这篇文章,相信你会从优化网站SEO诊断中的robots.txt文件中获益匪浅。 至少子凡觉得这绝对是一篇内容丰富的文章。 当然,如果有什么问题或者补充,欢迎在雷雪博客留言讨论。
文章评论