搜索引擎通过蜘蛛spiders程序爬网来工作,这些爬虫程序最初爬取的网页从哪里来?
搜索引擎通过蜘蛛爬行来工作。 这些爬虫从 URL 列表开始,然后沿着页面上的链接发现新的网页。 这个过程一直持续到创建大量信息索引为止。 然后将爬取的数据带回服务器并添加到索引数据库中。 当用户使用搜索引擎时,搜索引擎会从索引数据库中提取相关结果,使用算法对其进行排序,并将结果呈现在搜索结果页面上。 。
搜索引擎的工作大致可以分为以下三个步骤。
爬行和爬行
抓取和抓取是搜索引擎完成数据收集工作的第一步。 搜索引擎会发出称为“蜘蛛”的爬虫程序来抓取和访问网站页面,这与我们浏览网站页面的方式类似。
在爬行过程中,爬虫程序并不是一发现链接就爬行。 而是将链接数据存储在搜索引擎的地址库中,然后统一安排抓取。
地址库分为要访问的地址库,存放爬虫程序发现但未爬取的页面; 已访问地址库,存储已爬取的页面。 爬虫程序会按照重要性从要访问的地址库中爬取。 网页。
那么爬虫程序最初爬取的网页是从哪里来的呢? 即地址数据库中URL的来源。 一般来说有以下三种方式:
URL提交,站长将URL提交给搜索引擎;
站点地图,通过XML站点地图提交URL;
对于新的链接,爬虫程序会爬取某个页面,解析出新的链接URL,并将其存储到要访问的地址库中。
在搜索引擎抓取爬行的这一步中,爬虫程序的整个爬行过程都是由程序控制的,在后台完成的,我们无法干预。
我们SEOer能做什么?
我们要做的就是让爬虫程序爬取网站上尽可能多的网页,并想办法吸引爬虫程序爬行。
如何吸引爬虫抓取更多的网页,这里有一些建议:
预处理和索引
在这一步中,搜索引擎可以了解抓取到的网页,并从中提取链接和存储的内容,然后将这些信息添加到搜索引擎数据库中,为最终的查询排名做准备。 如果您的页面不在索引中,用户将无法看到它,这就是为什么在搜索引擎中将您的网站编入索引如此重要。 这个过程和第一步爬取是一样的。 它是在后台提前完成的。 用户在搜索时感受不到这个过程,这里就不详细描述了。
排行
经过前两步的工作后,此时的搜索引擎就已经准备好随时处理用户的搜索查询了。 用户在搜索框中输入搜索词,搜索引擎排名系统将调用索引数据库数据,计算排名并将结果呈现给用户。
排名系统的工作步骤通常如下:
匹配包含该搜索词的所有搜索结果;
从所有搜索结果中按页面权重排序,通常提取1000个搜索结果;
计算这 1000 个提取的搜索结果中与搜索词的相关性。
排名工作完成后,搜索引擎会将最常用的搜索词和搜索结果存储在缓存中。 当用户进行搜索时,搜索引擎会从缓存中调用搜索结果呈现给用户。
这就是搜索引擎如何工作的全部内容。
我正在写《SEO学习指南》,计划每个工作日更新,周末休息。 该指南将首先在我的跨境工具评测()网站上发布,然后在公众号、知乎等第三方平台上同步。
文章评论