首页 SEO攻略 正文

搜索引擎爬行的工作过程大体上可以分成三个阶段

SEO攻略 2023-12-21 102

搜索引擎的工作过程一般可以分为三个阶段:

(1)爬行和抓取:搜索引擎蜘蛛通过以下链接访问网页,活动页面的HTML代码存储在数据库中。

(2)预处理:索引程序对抓取到的页面数据进行文章提取、中文分词、索引等处理,为调用排序程序做准备。

(3)排名:用户输入关键词后,排名程序调用索引数据库,计算相关性,然后以一定格式生成搜索结果页面。

引擎搜索是什么意思_seo优化搜索引擎工作原理_引擎搜索有哪些

1、爬行和爬行

1.蜘蛛

搜索引擎用来抓取和访问页面的程序称为“蜘蛛”,也称为机器人。

当搜索引擎蜘蛛访问网站页面时,它与普通用户使用的浏览器类似。 蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序将接收到的代码存储在原始页面数据库中。 为了提高爬行和爬行速度,搜索引擎采用多个蜘蛛,分布式爬行。

当蜘蛛访问任何网站时,都会首先访问该网站根目录下的robots.txt文件。 如果robots.txt文件禁止搜索引擎抓取某些文件或目录,那么搜索引擎就不会抓取和抓取这些文件,而是会直接过滤这些文件。

2. 追踪链接

为了在互联网上爬行尽可能多的页面,搜索引擎蜘蛛会跟踪页面的链接,从一个页面爬行到另一个页面,一层一层地爬行,直到没有进一步的链接。

搜索引擎抓取有两个原则:一是深度优化,二是广度优先。

所谓深度优先,是指蜘蛛沿着发现的链接向前爬行,直到没有其他链接指向它,然后返回到第一页继续爬行。

广度优先是指蜘蛛在一个页面上找到多个链接地址。 它不是沿着一个链接向前爬,而是抓取页面上的所有一级链接,然后从二级页面开始抓取,直到结束。 。 理论上,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,它就可以爬行整个互联网。 在实际工作中,蜘蛛的带宽资源和时间都是有限的,不可能爬取所有页面。 因此深度优先和广度优先通常混合使用,这样可以照顾到尽可能多的页面,也可以照顾到一些内部页面。

3.吸引蜘蛛

如何吸引蜘蛛抓取并抓取更多的页面,我认为应该从以下几个方面考虑:

(1)网站和页面的权重:质量和资历高的网站被认为具有较高的权重。 此类网站的页面会被抓取到更高的深度,收录的内部页面数量也会增加。

(2)页面更新率:蜘蛛每次抓取时都会存储页面数据。 如果第二次爬行发现页面和第一次一模一样,说明该网站页面还没有更新,下次蜘蛛继续爬行的概率就不会一样了。 会非常高。

(3)导入链接:导入链接就是我们常说的外部链接和内部链接。 外部链接,顾名思义,就是从外部网站导入的,大部分都是友好链接。 内部链接主要针对网站内部,是指从网站的一个页面指向另一个页面。 高质量的外部链接可以增加网站的权重,增加搜索引擎抓取网站的深度。

(4)距首页的点击距离:一般来说,网站权重最高的页面就是首页。 大多数外部链接也指向主页。 该主页也是蜘蛛访问最频繁的页面。 因此,距离首页越近,页面权重就越高,被蜘蛛抓取的机会就越大。

引擎搜索有哪些_引擎搜索是什么意思_seo优化搜索引擎工作原理

4.地址库

为了避免重复抓取和抓取URL,搜索引擎会在内部建立一个地址库,记录已找到但尚未抓取的页面,以及已抓取的页面。 地址库中的 URL 有多个来源:

(1) 手动输入种子网站

(2)蜘蛛抓取页面后,从HTML中解析出新的URL,并与地址库中的数据库进行比较。 如果是不在地址库中的URL,则将其存储到要访问的地址库中。

(3)站长通过搜索引擎网站页面形式提交传入的URL。

5、文件存储

搜索引擎蜘蛛爬取的数据存储在原始页面数据库中。 页面数据与用户浏览器获取的HTML完全相同。 每个 URL 都有一个对应的文件编号。

6.爬取时的复制内容检测

百度会定期检测重复页面,通常每个月都会有一次重大更新。 目的是尽可能删除重复的页面,为用户提供更准确的信息,满足用户的搜索目的。

2. 预处理

“预处理”也称为“索引”,因为索引是预处理中最重要的步骤。

seo优化搜索引擎工作原理_引擎搜索有哪些_引擎搜索是什么意思

(1)提取文本。 当前的搜索引擎仍然基于文本内容。 蜘蛛抓取的页面中的HTML格式标签、JavaScript程序等内容不能用于排名。 搜索引擎预处理首先要做的就是从HTML文件中去除标签和程序,提取出可用于排名处理的网页文本内容。

除了可见文本之外,搜索引擎还会提取一些包含文本信息的特殊代码,例如Meta标签中的文本、图片替代文本、Flash文件替代文本、链接锚文本等。

(2)中文分词

分词是中文搜索引擎特有的一步。 搜索引擎基于分词来存储和处理页面和用户搜索。

中文分词基本上有两种方法,一种是基于字典匹配的方法,另一种是基于统计的方法。

基于字典匹配的方法是指将待分析的汉字与预先制作的字典中的词条进行匹配。 如果将待分析的汉字字符串扫描到字典中已有的词条,则匹配成功,或者说匹配成功。 分开一个词。

基于统计的分词方法是指对大量的文本样本进行分析,计算相邻词的统计概率。 相邻单词出现的次数越多,它们构成单词的可能性就越大。

以上两种方法各有优缺点。 实际使用的分词系统采用两种方法混合使用,速度快、效率高,能够识别新词、新词。

(3)去除停用词。 无论英文还是中文,页面内容中都会有一些出现频率很高但对内容没有影响的词语,比如“的”、“地”、“德”、“啊”、“感叹词”等助词。诸如“哈”、“啊”等介词,以及“由此”、“一”、“却”等介词。这些词由于对页面主旨影响不大,被称为停用词。英语中常见的停用词包括 the、a、an、to、of 等。

搜索引擎会在索引页面之前删除这些停用词,以使索引的数据主题更加突出,并减少不必要的计算量。

(4)消除噪音

大多数页面上还存在一些与页面主题无关的内容,例如版权声明文字、导航栏、广告等。以常见的博客导航为例。 文章分类、历史档案等导航内容几乎会出现在每个博客页面上,但这些页面本身与“类别”和“历史”这些词无关。

用户仅仅因为页面上出现了“类别”、“历史”等关键词而搜索并返回博客文章,是毫无意义且完全无关的。 因此,这些块是噪音,只会分散页面主题的注意力。

搜索引擎需要识别并消除这种噪音,并且在排名时不要使用噪音内容。 去噪的基本方法是根据HTML标签将页面分成块,区分出页眉、导航、正文、页脚、广告等区域。 网站上大量重复的区块往往是噪音。 对页面进行去噪后,剩下的就是页面的主要内容。

(5) 去除重复项

同一篇文章经常会在不同的网站以及同一网站的不同 URL 上重复出现。 搜索引擎不喜欢这种重复的内容。 用户搜索时,如果在前两个页面看到不同网站的同一篇文章,虽然内容相关,但用户体验会太差。 搜索引擎希望只返回一篇相同的文章,因此在索引之前需要识别并删除重复的内容。 这个过程称为重复数据删除。

去重的基本方法是对页面的特征关键词进行指纹计算,也就是说从页面的主要内容中选择最具代表性的关键词(往往是出现频率最高的关键词),然后计算这些关键词的数字指纹。关键词。 。 这里的关键词选择是在分词、去停用词、降噪之后进行的。 实验表明,一般选择10个特征关键词就可以达到比较高的计算精度,选择更多的词对重复精度的提升贡献不大。

了解了搜索引擎的去重算法后,SEO人员应该知道,简单地添加“的、地、得”以及改变段落顺序,所谓的伪原创,是无法逃脱搜索引擎的去重算法的,因为这样的操作都是特征关键词文章的内容无法更改。 而且,搜索引擎的去重算法很可能不会停留在页面级别,而是到段落级别。 混合不同的文章和交叉改变段落顺序不会使转载和抄袭成为原创。

(6)远期指数,简称指数。

经过前五个步骤后,搜索引擎会提取文本中的关键词,根据分词程序进行分词,并记录每个词在页面中出现的频率、出现的次数,格式为( (如粗体、斜体、粗体、H标签、添加颜色、锚文本等)、位置(如文本的第一段或页面的最后一段等)。 然后将这些单词记录为一组字符串关键字,然后这些单词的相关信息如格式、权重等也会被记录下来。

事实上,在搜索引擎中,每个关键词也被转换成ID形式并记录下来,然后每个文件ID对应一串关键词ID。 这种每个文件ID对应一个字符串关键字ID的数据结构称为前向索引。

(7) 倒排索引

前向索引不能直接应用于关键词排名。 假设用户搜索关键字2,那么搜索引擎将扫描索引库中的所有文件。 这样时间太长,无法满足用户返回结果的速度,所以这里使用了倒排索引。 将关键字ID映射到文章ID,例如关键字2对应文章A和文章B。这将大大缩短搜索引擎对索引库中文件的扫描,缩短扫描时间。

(8) 链接的计算

这一步基本上就是计算链接了。 页面中有哪些传入链接,这些链接指向哪里,哪些链接指向此页面,以及链接是否使用URL或锚文本。 这些复杂的链接关系就形成了页面的链接。 此时,锚文本将作为重要的排名依据,而等效的广泛锚文本将被纳入计算关键词排名的步骤中。

(9)特殊文件处理

除了HTML文件之外,搜索引擎通常可以抓取并索引多种基于文本的文件类型,例如PDF、Word、WPS、XLS、PPT、TXT文件等,我们也经常在搜索结果中看到这些文件类型。 然而,目前的搜索引擎还无法处理图像、视频、Flash等非文本内容,也无法执行脚本和程序。

尽管搜索引擎在识别图像和从Flash中提取文本内容方面取得了一些进展,但距离通过读取图像、视频和Flash内容直接返回结果的目标还很远。 图片和视频内容的排名往往是基于与其相关的文本内容。

3、排名

当搜索引擎蜘蛛抓取页面并由索引程序计算出倒排索引后,搜索引擎就可以随时处理用户搜索了。 用户在搜索框中填写关键词后,排名程序调用索引数据库数据计算排名并显示给用户。 排名过程直接与用户交互。

引擎搜索有哪些_引擎搜索是什么意思_seo优化搜索引擎工作原理

(1) 检索词处理

搜索引擎收到用户输入的搜索词后,需要对搜索词进行一些处理。 搜索词处理包括以下几个方面:

1)中文分词。 就像页面索引时一样,搜索词也必须被分割成中文单词,即基于单词的关键词组合。 分词的原理与分页的原理相同。

2)删除停用词。 就像在索引过程中一样,搜索引擎也需要从搜索词中删除停用词,以最大限度地提高排名相关性和效率。

3)指令处理。 查询词切分后,搜索引擎默认的处理方式是关键词之间采用“AND”逻辑。

也就是说,当用户搜索“减肥方法”时,程序会将单词分割成两个词:“减肥”和“方法”。 排序时,搜索引擎默认认为用户正在寻找同时包含“减肥”和“方法”的页面。 仅包含“减肥”但不包含“方法”的页面,或者仅包含“方法”但不包含“减肥”的页面,将被视为不符合搜索条件。 当然,这只是为了说明原理而极其简化的表述。 事实上,我们仍然会看到只包含一些关键词的搜索结果。

另外,用户输入的查询词还可能包含一些高级搜索指令,例如加号、减号等,搜索引擎需要对其进行识别和处理。 对于高级搜索说明,后面有详细说明。

4) 纠正拼写错误。 如果用户输入明显错误的单词或拼写错误的英文单词,搜索引擎将提示用户使用正确的单词或拼写。

5) 集成搜索触发器。 某些搜索词将触发集成搜索。 例如,名人名字往往会触发图片和视频内容,当前的热门话题很容易触发信息内容。 在搜索词处理阶段还需要计算哪些词触发哪些集成搜索。

(2) 文件匹配

搜索词经过处理后,搜索引擎根据这些词得到关键词的集合。 文件匹配阶段是查找包含所有关键字的文件。 索引部分提到的倒排索引可以快速完成文件匹配。

(3)初始子集的选择

找到包含所有关键词的匹配文件后,无法进行相关性计算,因为找到的文件往往有几十万、几百万、甚至几千万。 实时对这么多文件进行相关性计算需要很长时间。

事实上,用户不需要知道所有数十万或数百万个匹配页面。 大多数用户只会查看前两页,即前 20 个结果。 搜索引擎不需要计算那么多页面的相关性,而只计算页面中最重要的部分。 经常使用搜索引擎的人都会注意到,搜索结果页通常最多显示100页。当用户点击搜索结果页底部的“下一页”链接时,最多只能看到100页,也就是1,000 个搜索结果。

因此,搜索引擎只需计算前1000条结果的相关性即可满足要求。 但问题是,搜索引擎如何在计算相关性之前知道哪千个文件是相关的? 因此,用于最终相关性计算的初始页面子集的选择必须依赖于其他特征而不是相关性,其中最重要的是页面权重。 由于所有匹配文件已经具有最基本的相关性(这些文件包含所有查询关键字),因此搜索引擎通常使用不相关的页面特征来选择初始子集。 初始子集的数量是多少? 成千上万? 也许更多,外人不知道。 但可以肯定的是,当匹配的页面数量巨大时,搜索引擎不会计算那么多页面,而是必须选择权重较高的页面子集,然后计算子集中页面的相关性。

(4)相关性计算

1)关键词出现频率

更常用的单词对搜索项的含义贡献较小,不太常用的单词对搜索项的含义贡献较大。 例如,假设用户输入搜索词“We Pluto”。 “我们”一词非常常见,出现在许多页面上,但它对搜索词“我们 Pluto”的识别和意义相关性贡献甚微。 识别出那些包含“us”一词的页面对搜索排名相关性影响不大,包含“us”一词的页面太多了。

“Pluto”一词不太常用,但对搜索词“We Pluto”的含义贡献更大。 包含“Pluto”一词的页面将与搜索词“We Pluto”更相关。

搜索引擎不会平等地对待搜索词中的关键字,而是根据其常见用途对它们进行加权。 不常见词的权重系数高,常见词的权重系数低。 排名算法更关注不常见的单词。

2)词频和密度。

一般认为,在没有关键词积累的情况下,搜索词在页面上出现的次数越多,且密度越高,页面与搜索词的相关性就越强。 当然,这只是一般规则,可能并非实际情况,因此相关性计算中还涉及其他因素。 频率和密度只是等式的一部分,并且变得越来越不重要。

3)关键词位置和形式。

正如索引部分提到的,页面关键字的格式和位置记录在索引数据库中。 关键词出现在较重要的位置,如标题标签、黑体、H1等,表明页面与关键词相关性更强。 这部分就是页面SEO需要解决的问题。

4)关键词距离。

分段关键词以完全匹配的方式出现,表明它们与搜索词最相关。 例如,搜索“减肥方法”时,如果“减肥方法”四个词连续、完整地出现在页面上,那么相关性最高。 如果“减肥”和“方法”这两个词没有出现在连续匹配中并且显得更接近,搜索引擎就会认为它们的相关性稍微高一些。

5)链接分析和页面权重。

除了页面本身的因素外,页面之间的链接和权重关系也会影响关键词的相关性,其中最重要的是锚文本。 页面以搜索词作为锚文本的传入链接越多,页面的相关性就越高。 链接分析还包括链接源页面本身的主题、锚文本周围的文本等。

(5)排名过滤及调整

选择匹配文档的子集并计算相关性后,确定总体排名。 那么搜索引擎可能会有一些过滤算法来稍微调整排名,其中最重要的是进行惩罚。 尽管一些涉嫌作弊的页面根据正常权重和相关性计算排名较高,但搜索引擎的惩罚算法可能会在最后一步将这些页面移至后面。 典型的例子有百度的负11、谷歌的负6、负30、负950等。

(六)排名显示

当所有排名确定后,排名程序调用原始页面的标题标签、描述标签、快照日期等数据在页面上显示。 有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的描述标签。

(7) 搜索缓存

用户搜索的关键词有很大一部分是重复的。 根据2/8规则,20%的搜索词占总搜索量的80%。 根据长尾理论,最常见的搜索词占比不会高达80%,但它们通常头部比较厚,少数搜索词占据了所有搜索的很大一部分。 尤其是当有热点新闻发生时,每天可能有数百万人搜索完全相同的关键词。

如果每次搜索都重新处理排名,可以说是一种巨大的浪费。 搜索引擎会将最常用的搜索词存储在缓存中,用户搜索时直接从缓存中调用,无需经过文件匹配和相关性计算,大大提高了排名效率,减少了搜索响应时间。

(8)查询点击日志

搜索引擎记录搜索用户的IP地址、搜索的关键词、搜索时间以及点击了哪些结果页面,形成日志。 这些日志文件中的数据对于搜索引擎判断搜索结果的质量、调整搜索算法、预测搜索趋势等具有重要意义。

淘宝天猫搜索引擎的具体工作步骤是什么样的?
« 上一篇 2023-12-20
做好采集站seo稳定持久的核心方法是什么?
下一篇 » 2023-12-21

文章评论