用日志分析科学诊断网站流量涨跌,谷歌 SEO 从业者必知
案例二:利用日志分析科学诊断网站流量波动
作为一名 Google SEO 从业者,相信大家一定经常遇到网站流量莫名下降或者上升的情况,是不是总是猜测可能是 Google 算法更新导致的?我可以肯定地说,大多数人都在使用同样的“猜测”说法,而没有任何科学依据。
为什么会这样呢?因为我接触过很多SEO从业者,大部分的讨论都是围绕原创与伪原创、内链与外链,很少听到他们讨论日志分析。对,你没听错,通过分析网站日志,可以科学的找到网站流量上升或下降的真正原因。
我们首先来了解一下网站日志的概念和作用。
理解概念:网站日志
什么是网站日志?
网站日志是以·log结尾的文件,记录着网站服务器接收处理请求、运行时错误等各种原始信息。准确的说应该是服务器日志。网站日志最大的意义在于记录网站操作,比如空间的运行、访问请求的记录等。通过网站日志可以清楚的知道用户访问了你网站的哪个页面,在什么IP、什么时间、什么操作系统、什么浏览器、什么分辨率的显示器下,访问是否成功。
影响:
通过网站日志可以清楚地知道访问者和服务器应用程序是否运行正常,或者存在哪些缺陷和故障的组件。
对于专业从事搜索引擎优化的人来说,网站日志可以记录每个搜索引擎蜘蛛机器人抓取网站的详细信息,比如:哪个IP的Google蜘蛛机器人在哪天访问了网站多少次,访问了哪些页面,访问页面时返回的HTTP状态代码等。
应用示例:
了解了网站日志之后,如果你是一个SEO从业者,相信你已经大致明白了为什么分析网站日志能够诊断网站的问题了?没错,分析网站日志最重要的作用就是了解搜索引擎爬虫是如何爬取我们网站页面的,以及爬取我们网站页面的状况。
2012 年 3 月的时候,我在运营一家直播美发商城,程序用 Magento 搭建,环境是 Linux 下的 nginx。一个月后,第一单就来了。到第三个月的时候,IP 已经稳定在 300-400,一个月有十几单,当然客单均价在 200 美元左右,这个已经很不错了。看上去好像没有很努力,但是 IP 来得这么快,我只运营 SEO,其他方面没怎么投入。
这种情况从五月一直持续到十月,突然有一天,流量暴跌到几十个IP,我想你此时一定在想,“算法更新了,谷歌降级了!”我的第一反应也是一样,直接去查了几个我经常关注的英文SEO网站,好像还没有更新,只能等了。不过冷静下来想想,这段时间网站内部内容都是原创的,外部内容只是一些外链,并没有什么作弊手段,这是为什么呢?我们认真找找原因吧!
3月至12月网站流量趋势图
上图是我们网站的流量,蓝色的是PV,绿色的是IP,黄色的是独立访客UV。
从网站流量情况我们可以看出,2012年9月27日流量开始大幅下滑,2012年10月11日更是大幅下滑。所以在出现这个问题的时候,我们截取了2012年8月到11月的日志进行对比分析,并进行了科学的分析研判。以下是诊断网站流量下滑原因的过程:
刚才大家已经了解了日志分析的作用,当网站出现IP掉线的情况,我们会从几个方面入手来排查:
1、软件是否感染木马;
2.服务器是否有问题(可以在网页上查看返回代码502或者其他以5开头的代码)
3、搜索引擎爬虫爬行是否异常?
4. 是否因为算法更新导致?
5. 是不是Google误罚导致的?
下面就针对以上问题进行分析判断的方法:
1、网站是否感染木马?这个问题不需要通过日志分析来判断,如果感染了木马,Google 会很快给你发邮件说网站感染了,让你解决。(前提是你需要用 Google 网站管理员工具注册该网站)
问题2和问题3需要通过日志分析来判断(下面的部分日志并非出自原站,这里只是简单的分析思路和方法)。
日志分析的步骤:步骤1、下载相应网站的服务器日志;步骤2、使用专门的日志分析工具进行分析;步骤3、将分析出的数据通过Excel模板进行汇总并可视化。
下图是我从Linux服务器下载并在Notepad++中打开的网站日志:
日志源数据
日志导入Excel显示
从上面的日志中我们可以看到带有数据的列表的解释:
我们从左到右查看日志的各列:
第一列是IP地址,代表用户访问的地址,也是搜索引擎爬虫(所谓的爬虫)的抓取服务器的抓取地址;
第二列是访问时间:这些用户或搜索引擎抓取并访问该网页的时间;
第三列是数据传输方式及协议标准;
第四列为访问该网页的返回码;
第五列是此网页打开时下载的字节数;
第六列是用户访问的网页地址;
第七列是用户访问的类型,包括浏览器类型、服务器操作系统版本等信息;
了解了下载的日志之后,我们来拆分一下日志:
我们再回到我们的问题2(服务器是否有问题(可以看到以5开头的代码,比如网页的返回码502))和问题3(搜索引擎爬虫是否异常),就可以明白需要对搜索引擎爬虫进行分析了,我们来看看日志内容:
日志源文件
我们可以看到上图红圈中的googlebot就是搜索引擎抓取的情况,我们想要研究一下Google搜索引擎爬虫,所以需要对包含googlebot的日志进行分词,下面是分词之后的结果:
包含 Googlebot 的日志源文件
我们对Google搜索引擎爬虫的日志文件进行拆分,并通过日志分析工具进行处理,希望得到两个结果:
a.我们需要获取搜索引擎爬虫在爬取我们的网页时的返回码(通过返回码可以判断服务器是否有问题);
b.我们需要获取搜索引擎爬虫对我们网站的抓取情况;
我们使用Excel对分段后的日志进行处理,得到网页返回码的汇总报告:
爬取网页时的错误代码汇总
从上表我们可以看出,并不存在网页返回502代码的情况,根据这个情况,我们可以排除服务器是否存在问题(这个分析可以回答问题2)。
我们根据搜索引擎爬虫的抓取量、抓取时间、重复抓取等维度,得到了如下抓取总结报告:
Google爬虫每日抓取量
爬虫平均爬取时间
谷歌爬虫重复爬行
Google爬虫抓取网页概述
首先我们要明白一个公式:搜索引擎爬虫每天也只有24小时,但是它停留在你网站的时间就是爬行时间;
平均爬虫停留时间=爬虫爬行量/爬虫爬行时间
通过以上对爬虫抓取量、爬虫抓取时间等因素的综合分析,我们可以分析搜索引擎爬虫在抓取我们的网页时是否遇到了重大异常(这个分析可以回答问题3)。
2.关于问题4:是不是算法更新导致的?这时候就需要对比一下最近更新的算法了。
网站流量在2012年9月27日开始暴跌,我们需要找到9月27日左右的谷歌算法更新事件:
2012 年 9 月 27 日 EMD 算法更新
以下是我在博客中对该算法的解释:
2012 EMD 算法解释
到这里,已经可以确定问题是由算法导致的,因为我们发现我们的域名里面有精准的关键词,而这些关键词正是算法想要攻击的。
对于第五个问题,如果以上都没有问题的话,可能是Google疯了,误杀了。如果你主动向Google报告,网站权重一般会很快恢复。这里就不细说了。
分析总结:
1、网页无木马;
2、服务器没有出现异常;
3、爬行无较大异常;
最终结果:由于2012年9月27日Google EMD算法更新;
看完整个案例,你是否觉得有一个科学的方法来诊断该网站?
文章评论