搜索引擎工作原理 (搜索引擎工作流程)
本文目录导航:
搜索引擎工作原理
搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
1、抓取网页。
每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。
爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。
被抓取的网页被称之为网页快照。
由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。
2、处理网页。
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。
其中,最重要的就是提取关键词,建立索引库和索引。
其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
3、提供检索服务。
用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。
搜索引擎基本工作原理工作原理
搜索引擎的基本工作原理包含三个关键步骤:抓取网页、处理网页以及提供检索服务。
具体流程如下:首先,搜索引擎通过网页抓取程序(spider)在互联网中发现并搜集网页信息。
spider会顺着网页中的超链接,持续抓取网页。
被抓取的网页被称为网页快照。
理论上,从有限的网页出发,可以搜集到绝大多数的网页。
其次,抓取到的网页需要经过大量的预处理工作,才能为用户提供检索服务。
最重要的预处理步骤包括提取关键词、建立索引库和索引。
此外,还包括去除重复网页、中文分词、判断网页类型、分析超链接以及计算网页的重要度/丰富度等。
最后,当用户输入关键词进行检索时,搜索引擎从索引数据库中找到与关键词匹配的网页。
在提供检索结果时,除了网页标题和URL外,还会附加一段来自网页的摘要及其他相关信息,帮助用户快速判断结果的准确性与相关性。
总之,搜索引擎的基本工作原理通过三个关键步骤——抓取、处理和检索服务,实现了从互联网中高效、准确地搜集和提供所需信息的过程。
搜索引擎是怎样工作的?
搜索引擎的整个工作过程包括三个部分:
1、抓取
搜索引擎为想要抓取互联网站的页面,不可能手动去完成,那么网络,google的工程师就编写了一个程序,他们给这个自动抓取的程序起了一个名字,蜘蛛(也可以叫做“机器人”或者“网络爬虫”)。
互联网上的信息存储在无数个服务器上,任何搜索引擎要想回答用户的搜索,首先要把网页存在自己本地的服务器上,这靠的就是网络爬虫。
它不停的向各种网站发送请求,将所得到的网页存储起来。
通常的做法是利用网页之间的链接从一个网页出发,提取出指向其他页面的链接,把它们当成将下次要请求的对象,不停重复这个过程。
有很多细节要被考虑。
比如避免循环链接的网页;解析网页文档,提取里边的链接;当链接无法打开时对错误进行处理等。
2、索引
索引就是帮助程序进行快速查找的。
大家都用过英汉词典。
字典前边的按照单词首字母排列的部分就是索引。
搜索引擎也一样。
这里要介绍第一个最重要的数据结构:反转列表。
搜索引擎所拥有的文档中出现的每一个单词都拥有一个反转列表。
它记录了这个单词在多少文档中出现,分别是哪些文档,每个文档分部出现多少次,分别出现在什么位置等信息。
这样当搜索相关单词时,Google就不用遍历所有的文档,只需要查找每个单词对应的反转列表就可以知道这个词在哪里出现了。
每一个网络文档不仅只有文本信息。
它还可能包括文件名,引用等部分。
为了提高搜索质量,搜索引擎需要对文档的不同部分分别处理,构造反转列表。
每一部分的单词都要被加入到这个词属于此部分的反转列表里。
3、搜索
有了索引,就可以快速找到所需内容了。
前边说过搜索引擎根据用户的信息需求查找匹配的内容。
信息需求来自于用户输入。
搜索引擎用把用户输入的搜索字符进行一些类似于创建索引时对文本的处理,然后生成解析树。
总之,以上技巧最终目标是帮助搜索引擎更好理解用户的信息需求,以便查找出更高质量的文档。
4、排序
用户输入的关键词,就可以查看到相关的内容了。
这个时候,就会一条一条的展示,那谁排在第一,谁排在第二,我们把这种结果的排序,称为排名。
排名会是很复杂的,系统会对其进行一系列复杂的分析,并根据分析的结论在索引库中寻找与之最为匹配的一系列网页,按照用户输入的关键词所体现的需求强弱和网页的优劣进行打分,并按照最终的分数进行排列。
文章评论