网站SEO优化必看!日志分析如看病,助你洞察网站健康状况
在进行网站的搜索引擎优化工作时,不可避免地要对网站日志进行详尽的分析,这种分析及诊断过程,就好比为网站进行体检。通过深入分析网站日志,我们能够更直观地了解网站的健康状况,而利用这些宝贵的数据,将有助于我们更有效地进行网站的SEO优化。
从网站日志中可以明确了解到,用户访问网站的具体页面时,所使用的IP地址、访问时间、操作系统类型、浏览器种类以及显示器分辨率,同时还能判断出访问是否顺利完成。专业从事搜索引擎优化的人员会利用网站日志来追踪搜索引擎蜘蛛机器人的活动细节,比如记录了特定IP地址的百度蜘蛛在特定日期访问网站的次数,访问了哪些具体页面,以及每次访问时页面的HTTP状态码。
常见的蜘蛛名称:
Baiduspider:百度蜘蛛
Baiduspider-Image:百度图片蜘蛛
Googlebot:谷歌机器人
Googlebot-Image:谷歌图片机器人
360Spider:360蜘蛛
sogou spider:搜狗蜘蛛
一、网站日志的作用
通过分析网站日志,我们可以掌握蜘蛛对网站的爬取概况,进而得知其爬行路径以及爬取数据的数量。
网站的更新速度与日志中蜘蛛爬取的频率紧密相连,通常情况下,更新越频繁,蜘蛛的爬取也会越频繁。我们网站的更新不仅包括新增内容的加入,还包括对现有内容的细致调整。
我们可以通过分析网站日志的反馈,对空间内的某些事务和潜在问题进行预先警报。这是因为一旦服务器出现故障,相关信息便会率先在网站日志中显现。需注意的是,服务器的稳定性和响应速度都会对我们网站的运行产生直接的影响。
我们可以从网站日志中了解到哪些页面是蜘蛛特别青睐的,哪些页面则被蜘蛛完全忽视,此外,我们还能观察到一些蜘蛛过度爬取行为,这对我们服务器的资源消耗相当严重,因此,我们必须对其进行屏蔽处理。
二、如何下载网站日志
我们的服务器空间必须具备日志下载的功能,这是选择空间时必须考虑的关键因素。在购买空间之前,务必确认该服务是否支持日志下载,因为并非所有服务商都提供此项服务。若空间支持,通常在后台会有WebLog日志下载的选项,用户可以将日志文件下载至根目录,随后通过FTP传输至本地。对于服务器而言,还可以设定将日志文件下载至特定路径。
这里存在一个关键点,强烈建议将网站日志的生成频率设定为每小时一次。对于规模较小、页面内容较少的企业网站,一天生成一次也是可行的,系统默认的设置就是如此。然而,如果网站内容丰富或属于大型站点,一天只生成一次日志,那么生成的文件会非常庞大。这样的文件有时会导致电脑打开时出现死机现象。若需调整,可以与空间提供商沟通协商进行设置。
三、网站日志数据分析
网站日志记录的数据量十分庞大,因此我们通常需要借助专业的日志分析工具来进行查看。其中,一些常用的日志分析工具包括光年日志分析工具、web log exploer以及WPS表格等。
117.26.203.167 - -
02/May/2011:01:57:44 -0700
请求路径为"GET/index.php",采用HTTP/1.1协议,服务器响应状态码为500,传输字节数为19967,请求来源未知,用户代理信息显示为Mozilla/4.0(兼容;MSIE 8.0;运行在Windows NT 5.1系统上;使用Trident/4.0引擎;AskTbCS-ST/5.11.3.15590;.NET CLR 2.0.50727;安装了Alexa工具栏)。
分析:
117.26.203.167访问ip;
2011年5月2日,凌晨1点57分44秒,查询时间点;所属时区为-0700。
依据HTTP/1.1通信协议,对(域名下的)/index.php页面进行数据抓取操作(其中GET代表服务器端的操作指令)。
500服务器响应状态码;
服务器在处理请求时,会返回一系列的状态码,其中包括200、301、302、304、404、500等。其中,200码表明用户已成功获取了所请求的文件,对于搜索引擎来说,这也意味着蜘蛛在此次爬行过程中成功找到了新的内容。301码则表示用户访问的页面URL已经进行了永久性重定向处理,而302码则意味着这种重定向是暂时的。当您遇到404错误时,意味着您试图访问的网页已不复存在,亦或是您输入的网址本身就有误。而500错误则表明服务器出现了故障。
19967表示抓取了19967个字节;
Mozilla版本为4.0,兼容性标识为MSIE 8.0,操作系统为Windows NT 5.1,浏览器引擎为Trident/4.0,同时包含AskTbCS-ST/5.11.3.15590组件,.NET CLR版本为2.0.50727,并且用户安装了Alexa Toolbar,这些信息共同表明了访问者所使用的访问端详情。
2、如果你的日志里格式不是如此,则代表日志格式设置不同。
众多日志资料中,2000与200064这两个数字均表示数据抓取过程顺利。
通过查阅每日日志中百度蜘蛛的抓取次数,我们可以了解抓取频率。这个频率并没有固定的时序或具体数字,我们通常需要对比多日的日志来作出判断。当然,我们更期望百度蜘蛛每天能抓取更多的页面。
有时候,我们会遇到路径不一致,有的带有斜杠,有的则没有。蜘蛛会自动识别并跳转到带有斜杠的页面。这表明搜索引擎能够识别我们的目录结构。因此,我们必须确保目录的统一性。
经过长时间对日志的分析,我们得以识别蜘蛛的抓取模式。我们能够观察到,在同一目录下,单个文件的抓取频率与不同目录间的抓取频率间隔均清晰可见。这些频率间隔的时长是由蜘蛛根据网站的权重以及更新速度自动设定的。
蜘蛛在抓取我们网站页面时,会按照一定的等级进行操作,这些等级的权重是逐渐降低的,通常的抓取顺序包括:首先是首页,接着是目录页,最后是内页。
四、通过网站日志我们能知道什么?
1、我们买的空间是否能够稳定?
2、蜘蛛对我们的那些页面比较喜欢而对哪些不喜欢?
蜘蛛何时频繁抓取我们的网站,那么我们便需及时更新内容。
总结:
不论是新建立的网站还是运营已久的网站,不论你使用的是百度还是谷歌,我们均能借助网站日志来揭示搜索引擎爬虫的抓取活动;一旦网站长期存在收录问题,我们便可以通过对比日志中爬虫的行为来查明问题所在;至于网站遭受封禁或被降权,我们同样能够通过分析日志来探寻问题的根源。分析网站日志,如同为网站进行诊疗,它使我们能清晰直观地了解网站的健康状况。这样的分析有助于我们更有效地进行网站优化。因此,对于真正的SEO专家来说,蜘蛛日志的分析既直接又高效。
微信公众号“小秘秘自媒体”系一名不知名草根自媒体平台,专注于IT领域,担任博主角色,提供SEO和网络营销的相关实用内容。信息来源:
文章评论