关键词搜查 Search 一 大型言语模型的语义搜查 keyword (关键词查找)
本文目录导航:
大型言语模型的语义搜查(一):关键词搜查(keyword Search)
关键词搜查(Keyword Search)是消息搜查中的基础技术,宽泛运行于各类运行,如Spotify、YouTube和Google地图等。
其外围算法是Okapi BM25,此算法基于概率检索框架,用于评价文档与搜查查问的相关性。
Okapi BM25在消息检索中被搜查引擎用于排序,提高搜查结果的精准度。
为了展示如何经常使用Cohere的API调用BM25算法搜查维基百科数据库,首先须要性能Python环境。
这里须要装置cohere和weaviate-client包,导入cohere和weaviate的API_key,进而创立weaviate client来衔接在线数据库。
咱们所经常使用的在线数据库是一个蕴含1000万条自维基百科数据记载的公共数据库,每条记载代表一段维基百科文章,涵盖了10种不同言语,包括但不限于英语、德语、法语、西班牙语、意大利语、日语、阿拉伯语、中文、韩语和印地语。
在口头查问时,可以设置不同的言语。
在成功关键词搜查性能时,咱们将经常使用API KEY性能参数来确保与Cohere和Weaviate服务的衔接。
关于COHERE_API_KEY,须要在Cohere网站上注册账号并创立API Key;而WEAVIATE_API_KEY和WEAVIATE_API_URL则经常使用地下示例中的API Key和URL。
关键词搜查的原理是经过比拟疑问和文档中重复词汇的数量,从而确定最相关的结果。
在搜查系统外部,关键词搜查分为检索和从新排名两个阶段。
第一阶段经常使用倒排索引和BM25算法对文档启动评分,第二阶段则对评分结果启动排序。
关键词检索存在局限性,尤其是在语义相关性上。
当文档与疑问在语义上相关但未产生重复词汇时,关键词检索或者不可准确检索到相关文档。
为处置这一疑问,后续将讨论如何借助言语模型启动改良,以成功更精准的语义搜查。
本文引见了关键词搜查的基本概念、成功方法和局限性,并经过Cohere的API调用示例展现了如何搜查维基百科数据库。
关键词搜查是搜查引擎中的外围性能,经过始终提升算法,可以提高搜查效率和准确性。
权重打分怎样计算公式
权重打分计算公式,是一种在消息检索环节中用于度量检索结果相关性的方法。
当咱们对一些查问条件启动搜查时,搜查引擎会把一切合乎条件的页面依照相关性启动打分排序,这个打分模式就是基于权重打分的。
上方咱们从多个角度对权重打分的计算公式启动剖析,以便更好地理解该方法的原理和运行。
权重打分怎样计算公式1. 基于词频的权重打分计算公式其中一个最普遍的基于词频的权重打分计算公式是TF-IDF,它不只思考了搜查关键词在文档中产生的频率,也思考了它在整个文本集中产生的频率。
TF-IDF理论示意为:TF-IDF(w, d) = TF(w, d) * IDF(w)其中w是搜查关键词,d是文档,TF(w, d)是搜查关键词w在文档d中产生的频率,IDF(w)是搜查关键词w在一切文档中产生的频率的倒数。
基于TF-IDF的权重打分计算公式可以评价搜查结果中每个文档关于特定查问的相关性。
2. 基于链接的权重打分计算公式除了思考搜查关键词在文档中产生的频率,链接结构也可以作为权重计算的一个起因。
PageRank是这种基于链接的排序方法的代表性算法之一。
PageRank可以权衡一个页面的关键性,是基于它与其余页面之间的链接相关建设的。
PageRank依据一个网页的链接数量和链接页面的权重计算网页的PageRank分数,并将它们用于搜查结果的排序。
3. 基于句法和语义的权重打分公式基于句法和语义的权重打分计算公式是一个愈加复杂的算法,它将思考整个文档和查问之间的语法和语义相关。
这种算法的关键思维是识别和评价关键词、短语和句子与查问之间的语法和语义婚配度。
这种计算公式将权重打分定义为文档和查问之间的全体相关性打分。
与数据库相比,搜查引擎有哪些好处和缺陷
1.处置的数据模式不同,搜查引擎用于索引数据,而数据库须要存储数据和索引数据2.跨度不同,搜查引擎要跨好几个库启动搜素,而数据库则专一于自己本地的数据,但如今的散布式数据库除外3.算法不同,搜查引擎要启动语义搜查等等,而数据库是准确对比的搜查。
文章评论