首页二次元正文

百度搜查引擎的算法是怎样的 (百度搜查引擎官网)

二次元 2024-09-10 63

本文目录导航：

百度搜查引擎的算法是怎样的？
深圳SEO历史上谷歌Google推出了哪些算法
搜查引擎是如何搜查到信息

百度搜查引擎的算法是怎样的？

权衡网页品质的维度网络搜查引擎在权衡网页品质时，会从以下三个维度综合思考给出一个品质打分。

上方会逐一引见这些影响网页品质判别的维度特色：• 内容品质• 阅读体验• 可访问性一个访问流利，内容品质高且阅读体验好的网页具有较高的品质；反之，任何一个维度出现疑问，都会影响网页的全体品质。

上方我们详细引见下这三个维度。

权衡网页品质的维度——内容品质网页主体内容是网页的价值所在，是满足用户需求的前提基础。

网络搜查引擎评价网页内容品质关键看其主体内容的好坏，以及主体内容能否可以让用户满意。

不同类型网页的主体内容不同，网络搜查引擎判别不同网页的内容价值时，须要关注的点也有区别，如：• 首页：导航链接和介绍内容能否明晰、有效。

• 文章页：能否提供明晰完整的内容，图文并茂更佳。

• 商品页：能否提供了完整实在的商品信息和有效的购置入口。

• 问答页：能否提供了有参考价值的答案。

• 下载页：能否提供下载入口，能否有权限限度，资源能否有效。

• 文档页：能否可供用户阅读，能否有权限限度。

• 搜查结果页：搜查进去的结果能否与题目相关。

网络搜查引擎考量网页内容品质的维度十分多，最为关键的是：老本；内容完整；信息实在有效以及安保。

上方我们经过举例来感触一下网络搜查引擎是如何对网页的内容品质启动分类的，请站长对比自己站点的页面，站在搜查引擎和用户的角度为自己打分：1、内容品质好：网络搜查引擎以为内容品质好的网页，破费了较多时期和精神编辑，倾泻了编者的阅历和专业常识；内容明晰、完整且丰盛；资源有效且优质；信息实在有效；安保无毒；不含任何舞弊行为和用意，对用户有较强的正收益。

对这局部网页，网络搜查引擎会提高其展如今用户背地的机率。

例如：• 专业医疗机构发布的内容丰盛的医疗专题页面；• 资深工程师发布的完整处置某个技术疑问的专业文章；• 专业视频网站上，播放明晰流利的正版电影或影视选集页面；• 出名B2C网站上，一个完整有效的商品购置页；• 威望资讯站原创或经过编辑整顿的热点资讯报道；• 经过网友仔细编辑，内容丰盛的词条；• 问答网站内，回答的内容可以完美处置提问者的疑问。

实例参考：示例内容品质说明case 3.1.1-1 好专业医疗网站发布的丰盛医疗专题页面case 3.1.1-2 好资深工程师发布的完整处置某个技术疑问的专业文章case 3.1.1-3 好专业视频网站上，播放明晰流利的正版影视选集页面case 3.1.1-4 好京东的一个完整有效的商品购置页case 3.1.1-5 好威望资讯站原创的热点资讯的报道case 3.1.1-6 好经过网友仔细编辑，内容丰盛的百科词条case3.1.1-7 好网络知道上，完美处置用户疑问的问答页2、内容品质中：内容品质中等的网页往往能满足用户需求，但未破费较多时期和精神启动制造编辑，不能表现出编者的阅历和专业常识；内容完整但并不丰盛；资源有效但品质欠佳；信息虽实在有效但属采集得来；安保无毒；不含舞弊行为和用意。

在互联网中，中等品质网页其实是一个比拟大的数量汇合，种类相貌也冗杂多样，网络搜查引擎在评价这类网页时往往还要思考其它十分多要素。

在这里，我们仅局部举例来让各位感触一下：• 论坛类网站里一个普通的帖子；• 一个普通的问答网页；• 没有启动任何编辑，间接转载其它网站的资讯；• 无版权信息的普通电影播放页• 采集出名小说网站的盗版小说页。

实例参考：示例内容品质说明case 3.1.2-1 中网易间接转载了中国资讯网的一篇资讯。

case 3.1.2-2 中文库上网友上行的“国庆放假布置”资讯case 3.1.2-3 中采集终点小说网的盗版小说站case 3.1.2-4 中网络贴吧里一个普通的帖子 3、内容品质差：网络搜查引擎以为主体内容信息量较少，或无有效信息、信息失效过时的都属于内容品质差网页，对用户没有什么实质性的协助，应该缩小其展现的时机。

同时，假设一个网站内该类网页的占比过大，也会影响网络搜查引擎对站点的评级，尤其是UGC网站、电商网站、黄页网站要尤其注重对过时、失效网页的治理。

例如：• 已下架的商品页，或已过时的团购页；• 已过有效期的招聘、买卖页面；• 资源已失效，如视频已删除、软件下载后无法经常使用等。

4、没有内容品质可言：没有内容品质可言的网页指那些制形老本很低，精雕细刻；从别处采集来的内容未经最最少的编辑整顿即搁置线上；挂木马等病毒；含有舞弊行为或用意；齐全不能满足用户需求，甚至含有诈骗内容的网页。

例如：• 内容空短，有很大批的内容，却不能撑持页面的关键用意；• 问答页有问无答，或回答齐全不能处置疑问；• 站内搜查结果页，但没有给出相关信息除上述网页外，诈骗用户和搜查引擎的网页在无内容品质可言汇合里占很高比例。

网络搜查引擎对舞弊网页的定义是：不以满足用户需求为目的，经过不合理手腕诈骗用户和搜查引擎从而获利的网页。

目前互联网上这局部网页还属少数，但舞弊网页的价值是负向的，对用户的损伤十分大，对这类网页，搜查引擎持动摇打击态度。

权衡网页品质的维度——阅读体验不同品质的网页带给用户的阅读体验会有很大差距，一个优质的网页给用户的阅读体验应该是正向的。

用户宿愿看到洁净、易阅读的网页，排版凌乱、广告过多会影响用户对网页主体内容的失掉。

在网络搜查引擎网页品质体系中，用户对网页主体内容的失掉老本与阅读体验呈正比，即失掉老本越高，阅读体验越低。

面对内容品质相近的网页，阅读体验佳者更容易取得更高的排位，而关于阅读体验差的网页，网络搜查引擎会视状况降低其展现的机率甚至拒绝收录。

影响用户阅读体验好坏的要素很多，目前网络搜查引擎关键从内容排版、广告影响两方面对网页启动考量：内容排版：用户进入网页第一眼看到的就是内容排版，排版选择了用户对网页的第一印象，也选择了用户对内容失掉的老本。

广告影响：网络搜查引擎了解网站的生活开展须要资金允许，对网页上搁置合理广告持允许态度。

网页应该以满足用户需求为宗旨，最佳形态即“主体内容与广告一同满足用户需求，内容为主，广告为辅”，而不应让广告成为网页主体。

上方我们经过举例来感触一下网络搜查引擎是如何对网页的阅读体验启动分类的，站长可以据此对比测验自己站点的阅读体验如何：1、阅读体验好：页面规划合理，用户失掉主体内容老本低，普通具有以下特色：• 排版合理，版式好看，易于阅读和阅读；• 用户须要的内容占据网页最关键位置；• 能够经过页面标签或页面规划十分清楚地域分出哪些是广告；• 广告不抢占主体内容位置，无阻碍用户对关键内容的失掉；实例参考：示例阅读体验说明case 3.2.1-1 好招聘、房产等网站首页也有很多广告，但都是招聘相关的，阅读体验是ok的。

case 3.2.1-2 好文章页，页面规划合理，无广告，排版好，结构合理case 3.2.1-3 好游戏首页，排版好看，规划合理，无广告，阅读体验优2、阅读体验差：页面规划和广告搁置影响了用户对主体内容的失掉，提高了用户失掉信息的老本，令用户反感。

包括但不只限于以下状况：• 注释内容不换行或不分段，用户阅读艰巨；• 字体和背风光彩相近，内容区分艰巨；• 页面规划不合理，网页首屏看不就任何有价值的主体内容；• 广告遮挡主体内容；或许在通用分辨率下，首屏都是广告，看不到主体内容；• 弹窗广告过多；• 影响阅读的浮动广告过多• 点击链接时，出现预期之外的弹窗；• 广告与内容混杂，不易区分；权衡网页品质的维度——可访问性用户宿愿极速地从搜查引擎失掉到须要的信息，网络搜查引擎尽或许为用户提供能一次性性间接失掉一切信息的网页结果。

网络搜查引擎以为不能间接失掉到主体内容的网页对用户是不友好的，会视状况调整其展现机率。

网络搜查引擎会从反常关上、权限限度、有效性三方面判别网页的可访问性，关于可以反常访问的网页，可以介入反常排序；关于有权限限度的网页，再经过其它维度对其启动观察；关于失效网页，会降权其展现机制甚至从数据库中删除。

1、可反常访问的网页无权限限度，能间接访问一切主体内容的网页。

2、有权限限度的网页此类网页分为两种：关上权限和资源失掉权限1）关上权限：指关上网页都须要登录权限，没有权限齐全无法看到详细内容，普通用户无法失掉或失掉老本很高，网络搜查引擎会降低其展现机率。

不包括以登录为关键配置的网页。

2）资源失掉权限：指失掉网页关键内容，如文档、软件、视频等，须要权限或许须要装置插件才干取得完整内容。

此时会分三种状况：• 提供优质、正版内容的网站，由于内容树立老本很高，虽然检查全文或下载时须要权限或装置插件，但属于用户预期之内，网络搜查引擎也不以为权限行为对用户形成损伤，给予与反常可访问页面相反的看待。

• 关于一些非优质、非正版的资源，来自于用户转载甚至机器采集，自身老本较低，内容也不共同，用户失掉资源还有权限限度——须要用户注册登录或许付费检查，网络搜查引擎会依据详细状况选择能否调整其展现。

• 还有一些视频、下载资源页，兴许自身资源品质并不差，但须要装置十分冷门的插件才干反常访问，比如要求装置“xx大片播放器”，网络搜查引擎会疑心其有恶意偏差。

实例参考：示例可访问性说明case 3.2-1 好 CNKI上的一篇论文，不要钱才干下载，但有版权，阅读体验好case 3.2-2 好优酷上一部新电影，须要付费才干观看，阅读体验好。

case 3.2-3 中内容是copy来，然而须要登录才干看更多case 3.2-4 差入党放开书，自身就是转载的，网上四处都是，但这个页面依然要求不要钱才干下载。

3、失效网页往往指死链和主体资源失效的网页。

网络搜查引擎以为这局部网页无法提供有价值信息，假设站点中此类网页过多，也会影响网络搜查引擎对其的收录和评级。

倡导站长对此类网页启动相应设置，并及时登录网络站长平台，经常使用死链提交工具告知网络搜查引擎。

失效网页包括但不只限于：• 404、403、503等网页；• 程序代码报错网页；• 关上后提示内容被删除，或因内容已不存在跳转到首页的网页；• 被删除内容的论坛帖子，被删除的视频页面（多出如今UGC站点）详细请参阅《网络搜查引擎网页品质白皮书》，望采用！

深圳SEO历史上谷歌Google推出了哪些算法

马加比降级(MaccabeesUpdate)

上线时期：2017年12月12号

受影响网站：刻意为各种关键词组合树立少量着陆页，比如“地名A+服务a“、”地名A+服务b”、“地名B+服务a”等等，为了笼罩这些关键词，制造少量页面，品质通常不会高。

马加比这个名字是的BarrySchwartz起的，不是Google官网给的名字，由于Google貌似不会再发布算法降级了，更不要说起名字了。

BarrySchwartz起这个名字是由于这次降级出当初犹太人的黑暗节时期，黑暗节是纪念马加比家族的。

Google在某种水平上确认了这次降级，不过只是说，在这段时期上线了几个小降级，是提高相关性日常上班的一局部。

移动优先索引(MobileFirstIndex)

上线时期：2017年10月中旬

受影响网站：移动优先索引指的是Google优先索引网站移动版本，并作为排名依据。

以前都是索引PC版本并计算排名的。

移动优先索引Google在2016年底就开局宣传了，但不时没有推出，估量影响面比拟大。

2017年10月中旬左右，Google泄漏一小局部网站曾经开局转为移动优先索引。

猫头鹰降级(ProjectOwl)

发布时期：2017年4月25号

受影响网站：虚伪资讯内容，如假造的假资讯，极度成见、怂恿恼恨，谎话等。

参见以前写的关于猫头鹰算法的帖子。

弗雷德降级(FredUpdate)

上线时期：2017年3月8号

为什么叫Fred降级呢?由于SEO们问Google员工GaryIllyes这次降级叫啥名字时，GaryIllyes随意给了个名字，貌似是他养的鱼的名字，为什么想起这条鱼的名字呢?由于GaryIllyes刚给这条鱼拍了张照片，就是左边这张。

GaryIllyes说，以后除非另行说明，不然一切降级都叫Fred了。

就这么任性，就这么粗率。

移动页面搅扰插页处罚算法(IntrusiveInterstitialPenalty)

上线时期：2017年1月10号

受影响网站：这个处罚算法针对移动页面：挡住主题内容的弹窗，搅扰用户访问的大幅插页式广告，用户须要关掉插页才干看到页面实践内容，有时刻须要等5-10秒才干关掉。

不过据统计，被处罚的网站并不多。

企鹅降级4.0(Penguin4.0)

上线时期：2016年9月23号，10月12号左右成功

受影响网站：和以前的企鹅降级一样，受影响的是有低品质外链的网站。

Penguin4.0是最后一次性企鹅系列算法降级了，由于企鹅算法以后成为外围排名算法的一局部，实时降级。

另外，以前的企鹅降级是处罚网站，4.0是不计算低品质外链，降低负面SEO的或许性。

移动友好算法2(MobileFriendlyAlgorithm2)

上线时期：2016年4月21号

APP装置插页广告处罚(APPInstallInterstitialPenalty)

上线时期：2015年11月2号

受影响网站：页面会弹出大幅、遮挡主体内容的插页，要求用户下载APP，这种页面被以为不移动友好，在移动搜查中会被降低排名。

页面可以倡导用户下载APP，但广告不要大幅甚至全屏，做成顶部banner之类的是没疑问的。

上线时期：信息发布时期是2015年10月26号，经过Bloomberg的一篇文章。

算法上线时期应该是数月前，2015年上半年。

RankBrain严厉说来不算是排名算法，而是以人工智能为基础的深化了解用户查问词的系统，尤其是长尾的、不常出现的查问。

2015年刚上线时，15%查问词经过RankBrain处置，或许是成果很好，2016年开局一切查问词都经过RankBrain处置。

RankBrain的例子参考以前的帖子。

被黑网站删除算法(HackedSpam)

上线时期：2015年10月

受影响网站：被黑的网站，包括病毒、疏导流量到色情、侵权产品、合法药物网站等。

这些页面会从搜查结果这间接删除，所以有时刻搜查结果页面或许只要8、9个结果。

以前通常是在搜查结果中标注这个页面或许被黑了，如今间接删除了。

5%左右的查问遭到影响。

审核自己网站能否被黑还是挺关键的。

熊猫算法4.2(PandaUpdate4.2)

上线时期：2015年7月18号

自2011年推出以来，熊猫算法阅历了近30次降级，Panda4.2是最后一次性，几个月才成功。

这之后，熊猫算法成为Google外围算法的一局部，虽然还会有降级，但不再独自给名字了。

品质降级(QualityUpdate)

上线时期：2015年5月1号左右

受影响网站：内容品质低的页面，但不是熊猫算法。

Google虽然确认了这次降级，但示意，这只是Google经常做的算法降级之一，调整了评价内容品质的方法，没什么不凡的。

移动友好算法(MobileFriendlyAlgorithm)

上线时期：2015年4月21号

受影响网站：在移动搜查中给予移动友好的网站排名优化。

也被称为Mobilegeddon_天劫算法。

所谓移动友好，其实没那么复杂，用户能反常在手机访问页面就行了，所以字体不要太小，字距行距不要太小，用户不须要左右拉屏幕，手指头点击链接时不会点错中央，速度够快等等。

自己用手机看看自己网站就知道能否移动友好了。

也可以参考一下本博客移动SEO的帖子。

移动友好算法是针对页面级别的，须要页面从新抓取、索引后才干判别能否移动友好。

所以算法自身4月底上线，但受影响的页面或许不是马上见到成果。

Google曾经预告说移动友好算法比熊猫和企鹅降级的影响还要大，但由于Google很早就提示SEO们移动友好的关键性，很多网站曾经做了移动优化，所以这次降级没有估量的那么有震撼性。

HTTPS降级(HTTPSUpdate)

上线时期：2014年8月7号

受影响网站：经常使用了https的页面排名会稍微优化一点。

Google申明这只是个很小的排名要素，但理想上对网站采用https起到了很大推进作用。

鸽子降级(PigeonUpdate)

上线时期：2014年7月24号

受影响网站：鸽子降级是本地搜查算法的一次性降级，改良了距离和定位排名算法参数。

这个名字不是Google起的，是SearchEngineLand给起的。

之所以取“鸽子”这个名字是由于，鸽子会回家，有本地看法。

蜂鸟降级(HummingbirdAlgorithm)

上线时期：2013年8月

受影响网站：蜂鸟降级是一次性排名算法的重写，改良对查问词实在用意的了解，更关键的是未来的扩展性。

虽然代码是齐全重写的，但排名要素及参数大略变化不多，所以上线后基本上SEO行业没有人留意到。

发薪日存款算法(PaydayLoanAlgorithm)

上线时期：2013年6月13号

受影响网站：针对渣滓和黑帽手法盛行的一些行业的查问词重点打击，如paydayloan(发薪日存款，一种小额、短期、利息高的存款，普通下个发薪日就还上)、色情等。

这些行业罕用的舞弊手法也经常是合法的。

2014年5月16号，发薪日存款算法2.0上线，2014年6月12号，算法3.0上线。

齐全婚配域名处罚(EMDUpdate)

上线时期：2012年9月29号

受影响网站：低品质的齐全婚配域名(exactmatchdomain)网站，也就是域名与指标关键词齐全一样。

URL中蕴含关键词对排名有一些协助，所以不少SEO用指标关键词注册域名。

这种域名确实有过好处，但如今内容不行的话或许被处罚。

DMCA处罚算法(DMCATakedownPenalty)

上线时期：2012年8月13号

DMCATakedownPenalty又被称为pirateupdate，海盗算法。

2014年10月21号，DMCA处罚算法上线2.0版本，很多BT种子网站、视频网站被大幅处罚。

企鹅降级(PenguinUpdate)

上线时期：2012年4月24号

受影响网站：Google的官网帖子申明打击的是违犯Google品质指南的渣滓网站，后续排名变化的剖析标明关键受处罚的是为取得排名制造少量渣滓外链、低品质外链的网站。

企鹅算法1.0影响了3.1%英文查问，3%左右的中文、德文等查问。

企鹅算法和熊猫算法是两个最驰名的Google处罚性算法，遭到影响的网站范围大，据考查，60%的SEO反映自己网站被Penguin算法处罚了。

企鹅对当天的SEO方法，尤其是外链树立方法，发生了很大影响。

不只制造外链要十分小心，大局部以前罕用的方法如今都被Google明白正告或许会被处罚，如今SEO们更头疼的是怎样删除低品质外链和以前发的渣滓外链，这比制造外链还艰巨。

页面规划处罚算法(PageLayoutAlgorithm)

上线时期：2012年1月

受影响网站：第一屏显示过多广告的页面被降低排名。

因此也常被称为AdsAboveTheFold(第一屏广告)算法。

1%的查问词受影响。

被处罚的网站修正页面规划后，Google从新抓取、索引，假设页面用户体验曾经改善，就会智能复原。

2012年10月9号，PageLayout2.0，2014年2月6号，PageLayout3.0区分上线。

新颖度降级(FreshnessUpdate)

上线时期：2011年11月3号

当然，这只实用于更须要新颖信息的查问，有的查问并没有太大实效性，如菜谱，就不用太担忧。

熊猫降级(PandaUpdate)

上线时期：2011年2月24号

受影响网站：内容低品质的页面排名被降低，如转载、剽窃的内容，少量用户发的渣滓留言、主体内容太少、关键词沉积等等。

熊猫降级打击面大，影响大抵12的查问结果，对现今SEO方法发生了关键影响。

Panda算法最后是后盾计算，集中上线，从2011年上线到2015年融入到外围算法中，阅历了近30次降级。

熊猫算法降级最后被SearchEngineLand命名为FarmersUpdate，内容农场降级，起初Google自己发布了算法代码是Panda，和我们的熊猫没相关，是Google外部开发此算法的关键工程师之一的名字叫Panda。

采集处罚算法(ScraperAlgorithm)

上线时期：2011年1月28号

负面评价处置(NegativeReview)

上线时期：2010年12月1号

咖啡因降级(Caffeine)

上线时期：2010年6月1号

受影响网站：咖啡因降级是一次性索引系统代码的重写，新系统比旧系统50%的内容降级，索引数量也更大，更有扩展性，速度更快。

原来的索引系统是分层的，有的内容(关键内容)抓取索引更快，有的内容就得等比拟长时期。

咖啡因系统把网络分红小区块，继续降级索引库，发现新页面，或老页面上的新内容，间接进入索引库。

MaydayUpdate

上线时期：2010年4月28号-5月3号

受影响网站：依据MattCutts的视频说明，Mayday降级关键针对长尾查问词，算法会寻觅哪些网站的页面品质更合乎要求。

当然这种说明说了也是和没说差不多。

SEO们的观察是，受影响的关键是大型网站上离首页点击距离比拟远、没什么外链、内容没有什么附加价值的页面—很多电商网站的产品页面就是这样的，内容是供应商给的，也不大或许有外链。

Mayday指的是出当初5月份，不是求救的那个Mayday。

页面速度要素(PageSpeedRankingFactor)

上线时期：2010年4月

受影响网站：望文生义，关上速度快的页面排名会给予优化，虽然幅度不大。

速度的测量包括蜘蛛抓取时页面的反响速度和工具条记载的用户关上页面时期。

2013年6月，MattCutts暗示，速度特地慢的页面或许会被处罚，不过也不用特地担忧，除非页面速度慢到肯定水平。

Vince/品牌降级(Vince/BrandUpdate)

上线时期：2009年2月1号

受影响网站：大品牌网站页面在很多查问结果中(都是非长尾的大词)排名清楚提高，所以最后被称为品牌降级。

以前帖子写过Vince/品牌降级。

MattCutts起初解释，这次降级其实其实只是很小的变化，担任的Google工程师名字叫Vince，所以Google外部代码称号是Vince。

这个变化并不是刻意针对大品牌，而是优化信赖度在排名中的作用，而信赖度、品质、链接这些方面，大品牌更有优势，所以表现进去的成果如同是大品牌页面被优化。

DeweyUpdate

百度搜查引擎的算法是怎样的 (百度搜查引擎官网)

上线时期：2008年3月

大爸爸(BigDaddy)

上线时期：2005年12月-2006年3月

大爸爸是一次性Google算法基础架构的重写，处置了网址规范化、301/302转向等技术疑问。

大爸爸是一个数据中心一个数据中心降级的，不是同时上线的。

大爸爸这名字怎样来的?据MattCutts帖子说，2005年12月的Pubcon会议上，MattCutts征求大家对这次降级的反应，MattCutts知道降级曾经在一个数据中心上线了，所以问大家有什么好名字来指这个数据中心，一位站长说，叫BigDaddy吧，他孩子就这么叫他的，MattCutts感觉挺好，就叫这个名字了。

我当年开局写SEO每天一贴就是大爸爸成功降级那段时期，第3篇帖子就是引见大爸爸降级状况。

Robin同志给我的第一个留言就在那篇帖子上，沙发，起初才有了点石，和很多中国SEO行业的故事。

JaggerUpdate

上线时期：2005年9-11月

受影响网站：Jagger分3个阶段上线，所以有Jagger1,Jagger2,Jagger3的名字。

Jagger降级关键打击低品质链接，如替换链接、链接农场、买卖链接等。

早期的Google算法降级基本上都是webmasterworld命名的，Jagger也是webmasterworld开创人BrettTabke起的名字，上方提到的降级称号大多是他们命名的。

但貌似Jagger是最后一个，起初的名字大多是Google自己发布的了。

BourbonUpdate

上线时期：2005年5月

受影响网站：早期Google降级往往没有官网信息，所以针对的是哪些网站经常不明，只是监测到排名有比拟大变化。

Bourbon普通以为与网址规范化有关。

Bourbon这个名字也是webmasterworld起的，要素是webmasterworld行将在新奥尔良举办一个行业会议，Bourbon是新奥尔良的一条驰名老街道。

AllegraUpdate

上线时期：2005年2月

受影响网站：不明白，或许说范围宽泛，包括低品质外链、关键词沉积、适度优化等。

发布允许nofollow

上线时期：2005年1月

如今SEO对nofollow必需都很相熟了，包括网络，一切干流搜查引擎都允许nofollow。

还不知道的请参考以前关于nofollow的帖子。

BrandyUpdate

上线时期：2004年2月

受影响网站：链接锚文字作用提高，链接须要来自好街坊的概念第一次性被提进去。

索引库增长，抓取索引了很多新的链接，一些网站取得了更高威望度。

弗罗里达降级(FloridaUpdate)

上线时期：2003年11月

受影响网站：弗罗里达降级是早期最驰名的Google算法降级，影响面大，受影响的以商业用意清楚的词为主，一些靠搜查流量的小公司开张，有的SEO公司因此堕入困境，由于客户网站排名降低，不续费了。

弗罗里达降级的结果大到，Google曾经承诺，以后不在年底上线这么大的降级了，免得猛烈影响很多商家的圣诞季开售业绩。

FloridaUpdate打击了一系列不自然的优化方法，包括暗藏文字、关键词沉积、链接农场、少量替换链接、适度优化。

Florida彻底扭转了SEO，可以说是如今SEO方法的终点。

Florida也是webmasterworld命名的，由于他们的命名方法该排到字母F打头了(为什么到了F打头，见上方Boston降级说明)，而第二年2月他们要在弗罗里达的奥兰多举办Pubcon大会，所以就用了Florida。

UpdateFritz

上线时期：2003年7月

Fritz降级是Google转为每天继续小幅降级索引的开局，这种降级方法又被称为everflux。

UpdateFritz这个名字是MattCutts在他2006年的博客帖子里提到的Google外部称号，不是webmasterworld命名系列里的。

EsmeraldaUpdate

上线时期：2003年6月1号

这是早期每个月出现一次性的GoogleDance的最后一次性。

这次降级之后，Google算法降级改为小幅、继续性的，当然这是相对GoogleDance每个月一次性、继续数天、排名猛烈动摇而言。

准确地说，GoogleDance是索引降级，不是算法降级。

Esmeralda降级之后，Google就不再Dance了。

DominicUpdate

上线时期：2003年5月1号

CassandraUpdate

上线时期：2003年4月1号

BrettTabke和webmasterworld第一次性特地给Google降级起名字。

既然第一个名字是Boston，是个男名，这次应该是C打头的女名，大家投票，Cassandra胜出，没有其它特地意义。

BostonUpdate

上线时期：2003年2月1号

2003年波士顿举办的SES大会上，Google员工发布了这次降级，为了和其它GoogleDance以示区别，取名Boston。

webmasterworld的开创人BrettTabke就想，给降级取名字是个挺好的主意，所以就效仿台风的命名方法给Google降级取名，按字母排序，男名女名距离，也失掉了Google的首肯。

所以早期的Google算法降级大多是webmasterworld命名的。

GoogleDance

早期Google索引库每个月降级一次性，是线下计算，而后集中上线。

由于数据量大，须要一个数据中心一个数据中心肠上线，不是同时上线的。

在降级时期，用户这分钟访问的是一个数据中心，下一分钟或许访问的是另一个数据中心，看到的搜查结果或许有很大差异，因此被称为GoogleDance。

从2000年7月开局，webmasterworld每个月开一个新帖，探讨每一次性GoogleDance状况，不时到2003年2月的Boston降级第一次性有了称号，以前的GoogleDance都是没有名字的。

这里是当年GoogleDance降级探讨的大列表。

搜查引擎是如何搜查到信息

随着互联网的迅猛开展、WEB信息的参与，用户要在信息陆地里查找自己所需的信息，就象海底捞针一样，搜查引擎技术恰好处置了这一难题（它可以为用户提供信息检索服务）。

搜查引擎是指互联网上专门提供检索服务的一类网站，这些站点的主机经过网络搜查软件(例如网络搜查机器人)或网络登录等方式，将Intemet上少量网站的页面信息搜集到本地，经过加工处置树立信息数据库和索引数据库，从而对用户提出的各种检索作出照应，提供用户所需的信息或相关指针。

用户的检索路径关键包括自在词全文检索、关键词检索、分类检索及其余不凡信息的检索(如企业、人名、电话黄页等)。

上方以网络搜查机器人为例来说明搜查引擎技术。

1．网络机器人技术网络机器人(Robot)又被称作Spider、Worm或Random，外围目的是为失掉Intemet上的信息。

普通定义为“一个在网络上检索文件且智能跟踪该文件的超文本结构并循环检索被参照的一切文件的软件”。

机器人应用主页中的超文本链接遍历WWW，经过U趾援用从一个HT2LIL文档匍匐到另一个HTML文档。

网上机器人搜集到的信息可有多种用途，如树立索引、HIML文件合法性的验证、uRL链接点验证与确认、监控与失掉降级信息、站点镜像等。

机器人安在网上匍匐，因此须要树立一个URL列表来记载访问的轨迹。

它经常使用超文本，指向其余文档的URL是暗藏在文档中，须要从中剖析提取URL，机器人普通都用于生成索引数据库。

一切WWW的搜查程序都有如下的上班步骤：(1)机器人从起始URL列表中取出URL并从网上读取其指向的内容；(2)从每一个文档中提取某些信息(如关键字)并放入索引数据库中；(3)从文档中提取指向其余文档的URL，并参与到URL列表中；(4)重复上述3个步骤，直到再没有新的URL出现或超出了某些限度(时期或磁盘空间)；(5)给索引数据库加上检索接口，向网上用户发布或提供应用户检索。

搜查算法普通有深度优先和广度优先两种基本的搜查战略。

机器人以URL列表存取的方式选择搜查战略：先进先出，则构成广度优先搜查，当起始列表蕴含有少量的WWW主机地址时，广度优先搜查将发生一个很好的初始结果，但很难深化到主机中去；先进后出，则构成深度优先搜查，这样能发生较好的文档散布，更容易发现文档的结构，即找到最大数目的交叉援用。

也可以采用遍历搜查的方法，就是间接将32位的IP地址变化，逐一搜查整个Intemet。

搜查引擎是一个技术含量很高的网络运行系统。

它包括网络技术、数据库技术动标引技术、检索技术、智能分类技术，机器学习等人工智能技术。

2．索引技术索引技术是搜查引擎的外围技术之一。

搜查引擎要对所搜集到的信息启动整顿、分类、索引以发生索引库，而中文搜查引擎的外围是分词技术。

分词技术是应用肯定的规定和词库，切分出一个句子中的词，为智能索引做好预备。

目前的索引多采用Non—clustered方法，该技术和言语文字的学识有很大的相关，详细有如下几点：(1)存储语法库，和词汇库配合分出句子中的词汇；(2)存储词汇库，要同时存储词汇的经常使用频率和经常出现搭配方式；(3)词汇宽，应可划分为不同的专业库，以便于处置专业文献；(4)对无法分词的句子，把每个字当作词来处置。

索引器生成从关键词到URL的相关索引表。

索引表普通经常使用某种方式的倒排表(1nversionUst)，即由索引项查找相应的URL。

索引表也要记载索引项在文档中出现的位置，以便检索器计算索引项之间的相邻相关或凑近相关，并以特定的数据结构存储在硬盘上。

不同的搜查引擎系统或许采用不尽相反的标引方法。

例如Webcrawler应用全文检索技术，对网页中每一个单词启动索引；Lycos只对页名、题目以及最关键的100个注释词等选用性词语启动索引；Infoseek则提供概念检索和词组检索，允许and、or、near、not等布尔运算。

检索引擎的索引方法大抵可分为智能索引、手工索引和用户登录三类。

3. 检索器与结果处置技术检索器的关键配置是依据用户输入的关键词在索引器构成的倒排表中启动检索，同时成功页面与检索之间的相关度评价，对将要输入的结果启动排序，并成功某种用户相关性反应机制。

经过搜查引擎取得的检索结果往往成千盈百，为了失掉有用的信息，罕用的方法是按网页的关键性或相关性给网页评级，启动相关性排序。

这里的相关度是指搜查关键字在文档中出现的额度。

当额度越高时，则以为该文档的相关水平越高。

能见度也是罕用的权衡规范之一。

一个网页的能见度是指该网页入口超级链接的数目。

能见度方法是基于这样的观念：一个网页被其余网页援用得越多，则该网页就越有价值。

特地地，一个网页被越关键的网页所援用，则该网页的关键水平也就越高。

结果处置技术可演绎为：(1)按频次排定秩序通常，假设一个页面蕴含了越多的关键词，其搜查指标的相关性应该越好，这是十分合平时理的处置打算。

(2)按页面被访问度排序在这种方法中，搜查引擎会记载它所搜查到的页面被访问的频率。

人们访问较多的页面通常应该蕴含比拟多的信息，或许有其余吸引入的短处。

这种处置打算适宜普通的搜查用户，而由于大局部的搜查引擎都不是专业性用户，所以这种打算也比拟适宜普通搜查引擎经常使用。

(3)二次检索进一步污染(比flne)结果，依照肯定的条件对搜查结果启动优化，可以再选用类别、相关词启动二次搜查等。

由于目前的搜查引擎还不具有智能，除非知道要查找的文档的题目，否则陈列第一的结果未必是“最好”的结果。

所以有些文档虽然相关水平高，但并不肯定是用户最须要的文档。

搜查引擎技术的行业运行：搜查引擎的行业运行普通指相似于千瓦通讯提供的多种搜查引擎行业与产品运行形式，大体上分为如下几种方式：1、政府机关行业运行 n 实时跟踪、采集与业务上班相关的信息起源。

n 片面满足外部上班人员对互联网信息的全局观测需求。

n 及时处置政务外网、政务内网的信息源疑问，成功灵活发布。

n 极速处置政府主网站对各地级子网站的信息失掉需求。

n 片面整合信息，成功政府外部跨地域、跨部门的信息资源共享与有效沟通。

n 浪费信息采集的人力、物力、时期，提高办公效率。

2、企业行业运行 n 实时准确地监控、追踪竞争对手灵活，是企业失掉竞争情报的利器。

n 及时失掉竞争对手的地下信息以便钻研同行业的开展与市场需求。

n 为企业决策部门和治理层提供方便、多路径的企业战略决策工具。

n 大幅度地提高企业失掉、应用情报的效率，节俭情报信息搜集、存储、开掘的相关费用，是提高企业外围竞争力的关键。

n 提高企业全体剖析钻研才干、市场极速反响才干，树立起以常识治理为外围的竞争情报数据仓库，是提高企业外围竞争力的神经中枢。

3、资讯媒体行业运行 n 极速准确地智能跟踪、采集数千家网络媒体信息，扩展资讯线索，提高采集速度。

n 允许每天对数万条资讯启动有效抓取。

监控范围的深度、广度可以自行设定。

n 允许对所需内容智能提取、审核。

n 成功互联网信息内容采集、阅读、编辑、治理、发布的一体化。

4、行业网站运行n 实时跟踪、采集与网站相关的信息起源。

n 及时跟踪行业的信息起源网站，智能，极速降级网站信息。

灵活降级信息。

n 成功互联网信息内容采集、阅读、编辑、治理、发布的一体化。

n 针对商务网站提出商务治理形式，大大提高行业网站的商务运行需求。

n 针对资讯网站分类目录生成，提出用户生成网站分类结构。

并可以实时参与与降级分类结构。

不受级数限度。

从而大大利高行业的运行性。

n 提供搜查引擎SEO优化专业服务，极速提高行业网站的推行。

n 提供与CCDC呼叫搜查引擎的广告协作。

树立行业网站联盟，提高行业网站出名度。

5) 网络信息监察与监控n 网络舆情系统。

如“千瓦通讯-网络舆情雷达监测系统”n 网站信息与内容监察与监控系统，如“千瓦通讯-网站信息与内容监测与监察系统（站内神探）”随着因特网的迅猛开展、WEB信息的参与，用户要在信息陆地里查找信息，就象大海捞针一样，搜查引擎技术恰好处置了这一难题（它可以为用户提供信息检索服务）。

目前，搜查引擎技术正成为计算机工业界和学术界争相钻研、开发的对象。

搜查引擎（Search Engine）是随着WEB信息的迅速参与，从1995年开局逐渐开展起来的技术。

据宣布在《迷信》杂志1999年7月的文章《WEB信息的可访问性》估量，环球目前的网页超越8亿，有效数据超越9T，并且仍以每4个月翻一番的速度增长。

用户要在如此浩瀚的信息陆地里寻觅信息，肯定会海底捞针无功而返。

搜查引擎正是为了处置这个迷航疑问而出现的技术。

搜查引擎以肯定的战略在互联网中搜集、发现信息，对信息启动了解、提取、组织和处置，并为用户提供检索服务，从而起到信息导航的目的。

搜查引擎提供的导航服务曾经成为互联网上十分关键的网络服务，搜查引擎站点也被佳誉为网络门户。

搜查引擎技术因此成为计算机工业界和学术界争相钻研、开发的对象。

本文旨在对搜查引擎的关键技术启动繁难的引见，以起到抛砖引玉的作用。

分类依照信息搜集方法和服务提供方式的不同，搜查引擎系统可以分为三大类： 1．目录式搜查引擎：以人工方式或半智能方式搜集信息，由编辑员检查信息之后，人工构成信息摘要，并将信息置于事前确定的分类框架中。

信息大多面向网站，提供目录浏览服务和间接检索服务。

该类搜查引擎由于参与了人的智能，所以信息准确、导航品质高，缺陷是须要人工介入、保养量大、信息量少、信息降级不迭时。

这类搜查引擎的代表是：Yahoo、LookSmart、Open Directory、Go Guide等。

2．机器人搜查引擎：由一个称为蜘蛛（Spider）的机器人程序以某种战略智能地在互联网中搜集和发现信息，由索引器为搜集到的信息树立索引，由检索器依据用户的查问输入检索索引库，并将查问结果前往给用户。

服务方式是面向网页的全文检索服务。

该类搜索引擎的优势是信息量大、降级及时、毋需人工干预，缺陷是前往信息过多，有很多有关信息，用户必需从结果中启动挑选。

这类搜查引擎的代表是：AltaVista、Northern Ligh t、Excite、Infoseek、Inktomi、FAST、Lycos、Google；国际代表为：天网、悠游、O penFind等。

3．元搜查引擎：这类搜查引擎没有自己的数据，而是将用户的查问恳求同时向多个搜索引擎递交，将前往的结果启动重复扫除、从新排序等处置后，作为自己的结果前往给用户。

服务方式为面向网页的全文检索。

这类搜查引擎的优势是前往结果的信息量更大、更全，缺陷是不能够充沛经常使用所经常使用搜查引擎的配置，用户须要做更多的挑选。

这类搜查引擎的代表是WebCrawler、InfoMarket等。

性能指标我们可以将WEB信息的搜检查作一个信息检索疑问，即在由WEB网页组成的文档库中检索出与用户查问相关的文档。

所以我们可以用权衡传统信息检索系统的性能参数-召回率（R ecall）和精度（Pricision）权衡一个搜查引擎的性能。

召回率是检索出的相关文档数和文档库中一切的相关文档数的比率，权衡的是检索系统（搜查引擎）的查全率；精度是检索出的相关文档数与检索出的文档总数的比率，权衡的是检索系统（搜查引擎）的查准率。

关于一个检索系统来讲，召回率和精度无法能两全其美：召回率高时，精度低，精度高时，召回率低。

所以常罕用11种召回率下11种精度的平均值（即11点平均精度）来权衡一个检索系统的精度。

关于搜查引擎系统来讲，由于没有一个搜查引擎系统能够搜集到一切的WEB网页，所以召回率很难计算。

目前的搜查引擎系统都十分关心精度。

影响一个搜查引擎系统的性能有很多要素，最关键的是信息检索模型，包括文档和查问的示意方法、评价文档和用户查问相关性的婚配战略、查问结果的排序方法和用户启动相关度反应的机制。

主要技术一个搜查引擎由搜查器、索引器、检索器和用户接口等四个局部组成。

1.搜查器搜查器的配置是在互联网中遨游，发现和搜集信息。

它经常是一个计算机程序，日夜不停地运转。

它要尽或许多、尽或许快地搜集各种类型的新信息，同时由于互联网上的信息降级很快，所以还要活期降级曾经搜集过的旧信息，以防止死衔接和有效衔接。

目前有两种搜集信息的战略： ● 从一个起始URL汇合开局，顺着这些URL中的超链（Hyperlink），以宽度优先、深度优先或启示式方式循环地在互联网中发现信息。

这些起始URL可以是恣意的URL，但经常是一些十分盛行、蕴含很多链接的站点（如Yahoo！）。

● 将Web空间依照域名、IP地址或国度域名划分，每个搜查器担任一个子空间的穷尽搜查。

搜查器搜集的信息类型多种多样，包括HTML、XML、Newsgroup文章、FTP文件、字处置文档、多媒体信息。

搜查器的成功常罕用散布式、并行计算技术，以提高信息发现和降级的速度。

商业搜查引擎的信息发现可以到达每天几百万网页。

2.索引器索引器的配置是了解搜查器所搜查的信息，从中抽取出索引项，用于示意文档以及生成文档库的索引表。

索引项有主观索引项和内容索引项两种：主观项与文档的语意内容有关，如作者名、 URL、降级时期、编码、长度、链接盛行度（Link Popularity）等等；内容索引项是用来反映文档内容的，如关键词及其权重、短语、单字等等。

内容索引项可以分为单索引项和多索引项（或称短语索引项）两种。

单索引项关于英文来讲是英语单词，比拟容易提取，由于单词之间有自然的分隔符（空格）；关于中文等延续书写的言语，必需启动词语的切分。

在搜查引擎中，普通要给单索引项赋与一个权值，以示意该索引项对文档的区分度，同时用来计算查问结果的相关度。

经常使用的方法普通有统计法、信息论法和概率法。

短语索引项的提取方法有统计法、概率法和言语学法。

索引表普通经常使用某种方式的倒排表（Inversion List），即由索引项查找相应的文档。

索引表也或许要记载索引项在文档中出现的位置，以便检索器计算索引项之间的相邻或凑近相关（proximity）。

索引器可以经常使用集中式索引算法或散布式索引算法。

当数据量很大时，必需成功即时索引（Instant Indexing），否则不能够跟上信息量急剧参与的速度。

索引算法对索引器的性能（如大规模峰值查问时的照应速度）有很大的影响。

一个搜查引擎的有效性在很大水平上取决于索引的品质。

3.检索器检索器的配置是依据用户的查问在索引库中极速检出文档，启动文档与查问的相关度评价，对将要输入的结果启动排序，并成功某种用户相关性反应机制。

检索器罕用的信息检索模型有汇合实践模型、代数模型、概率模型和混合模型四种。

4.用户接口用户接口的作用是输入用户查问、显示查问结果、提供用户相关性反应机制。

关键的目的是繁难用户经常使用搜查引擎，高效率、多方式地从搜查引擎中失掉有效、及时的信息。

用户接口的设计和成功经常使用人机交互的实践和方法，以充沛顺应人类的思想习气。

用户输入接口可以分为繁难接口和复杂接口两种。

繁难接口只提供用户输入查问串的文本框；复杂接口可以让用户对查问启动限度，如逻辑运算（与、或、非；+、-）、相近相关（相邻、NEAR）、域名范围（如、）、出现位置（如题目、内容）、信息时期、长度等等。

目前一些公司和机构正在思考制订查问选项的规范。

未来动向搜查引擎已成为一个新的钻研、开发畛域。

由于它要用到信息检索、人工智能、计算机网络、散布式处置、数据库、数据开掘、数字图书馆、自然言语处置等多畛域的实践和技术，所以具有综合性和应战性。

又由于搜查引擎有少量的用户，有很好的经济价值，所以惹起了环球各国计算机迷信界和信息产业界的高度关注，目前的钻研、开发十分生动，并出现了很多值得留意的意向。

1.十分留意提高信息查问结果的精度，提高检索的有效性用户在搜查引擎上启动信息查问时，并不十分关注前往结果的多少，而是看结果能否和自己的需求吻合。

关于一个查问，传统的搜查引擎动辄前往几十万、几百万篇文档，用户不得不在结果中挑选。

解决查问结果过多的现象目前出现了几种方法：一是经过各种方法取得用户没有在查问语句中表白进去的真正用途，包括经常使用智能代理跟踪用户检索行为，剖析用户模型；经常使用相关度反应机制，经常使用户通知搜查引擎哪些文档和自己的需求相关（及其相关的水平），哪些不相关，经过屡次交互逐渐求精。

二是用注释分类（Text Categorization）技术将结果分类，经常使用可视化技术显示分类结构，用户可以只阅读自己感兴味的类别。

三是启动站点类聚或内容类聚，缩小信息的总量。

2.基于智能代理的信息过滤和共性化服务信息智能代理是另外一种应用互联网信息的机制。

它经常使用智能取得的畛域模型（如We b常识、信息处置、与用户兴味相关的信息资源、畛域组织结构）、用户模型（如用户背景、兴味、行为、格调）常识启动信息搜集、索引、过滤（包括兴味过滤和不良信息过滤），并智能地将用户感兴味的、对用户有用的信息提交给用户。

智能代理具有不时学习、适应信息和用户兴味灵活变化的才干，从而提供共性化的服务。

智能代理可以在用户端启动，也可以在主机端运转。

3.采用散布式体系结构提高系统规模和性能搜查引擎的成功可以采用集中式体系结构和散布式体系结构，两种方法各有所长。

但当系统规模抵达肯定水平（如网页数到达亿级）时，肯定要采用某种散布式方法，以提高系统性能。

搜查引擎的各个组成局部，除了用户接口之外，都可以启动散布：搜查器可以在多台机器上相互协作、相互分工启动信息发现，以提高信息发现和降级速度；索引器可以将索引散布在不同的机器上，以减小索引对机器的要求；检索器可以在不同的机器上.