首页 SEO攻略正文

搜索引擎通过蜘蛛spiders程序爬网来工作，这些爬虫程序最初爬取的网页从哪里来？

SEO攻略 2023-11-24 159

搜索引擎通过蜘蛛爬行来工作。这些爬虫从 URL 列表开始，然后沿着页面上的链接发现新的网页。这个过程一直持续到创建大量信息索引为止。然后将爬取的数据带回服务器并添加到索引数据库中。当用户使用搜索引擎时，搜索引擎会从索引数据库中提取相关结果，使用算法对其进行排序，并将结果呈现在搜索结果页面上。。

搜索引擎通过蜘蛛spiders程序爬网来工作，这些爬虫程序最初爬取的网页从哪里来？

搜索引擎的工作大致可以分为以下三个步骤。

爬行和爬行

抓取和抓取是搜索引擎完成数据收集工作的第一步。搜索引擎会发出称为“蜘蛛”的爬虫程序来抓取和访问网站页面，这与我们浏览网站页面的方式类似。

在爬行过程中，爬虫程序并不是一发现链接就爬行。而是将链接数据存储在搜索引擎的地址库中，然后统一安排抓取。

地址库分为要访问的地址库，存放爬虫程序发现但未爬取的页面；已访问地址库，存储已爬取的页面。爬虫程序会按照重要性从要访问的地址库中爬取。网页。

那么爬虫程序最初爬取的网页是从哪里来的呢？即地址数据库中URL的来源。一般来说有以下三种方式：

URL提交，站长将URL提交给搜索引擎；

站点地图，通过XML站点地图提交URL；

对于新的链接，爬虫程序会爬取某个页面，解析出新的链接URL，并将其存储到要访问的地址库中。

在搜索引擎抓取爬行的这一步中，爬虫程序的整个爬行过程都是由程序控制的，在后台完成的，我们无法干预。

我们SEOer能做什么？

我们要做的就是让爬虫程序爬取网站上尽可能多的网页，并想办法吸引爬虫程序爬行。

如何吸引爬虫抓取更多的网页，这里有一些建议：

预处理和索引

在这一步中，搜索引擎可以了解抓取到的网页，并从中提取链接和存储的内容，然后将这些信息添加到搜索引擎数据库中，为最终的查询排名做准备。如果您的页面不在索引中，用户将无法看到它，这就是为什么在搜索引擎中将您的网站编入索引如此重要。这个过程和第一步爬取是一样的。它是在后台提前完成的。用户在搜索时感受不到这个过程，这里就不详细描述了。

排行

经过前两步的工作后，此时的搜索引擎就已经准备好随时处理用户的搜索查询了。用户在搜索框中输入搜索词，搜索引擎排名系统将调用索引数据库数据，计算排名并将结果呈现给用户。

排名系统的工作步骤通常如下：

匹配包含该搜索词的所有搜索结果；

从所有搜索结果中按页面权重排序，通常提取1000个搜索结果；

计算这 1000 个提取的搜索结果中与搜索词的相关性。

排名工作完成后，搜索引擎会将最常用的搜索词和搜索结果存储在缓存中。当用户进行搜索时，搜索引擎会从缓存中调用搜索结果呈现给用户。

这就是搜索引擎如何工作的全部内容。

我正在写《SEO学习指南》，计划每个工作日更新，周末休息。该指南将首先在我的跨境工具评测（）网站上发布，然后在公众号、知乎等第三方平台上同步。

SEO优化真的没得做了吗？SEO到底要怎么做？

« 上一篇 2023-11-24

如何操作泛站群排名技术的一个整体流程分享

下一篇 » 2023-11-24

文章评论