跟搜索引擎的区别 阅读器过滤是什么意思 (和搜索引擎有关的技术有)

本文目录导航:
阅读器过滤是什么意思?跟搜索引擎的区别?
阅读器过滤 可以过滤指定网址和关键字但是不同的阅读器不同。
如今有些阅读器可以过滤掉 广告 图片相关文本的搜索过滤普通都是主机过滤的和阅读器没得相关。
假设你经常使用了不凡软件 一些搜不到的网页在相反的阅读器外面还是可以访问的
搜索引擎优化的开展历史
搜索引擎优化(SEO)不是突然出现的一个技术,而是和搜索引擎同步开展起来的,两者的相关只管不能说是“矛和盾”的相关,但是可以必需的是,由于有SEO才使得搜索引擎技术能够变得更完善。
一、1994-1997年:雅虎降生与SEO降生1993年8月,Lycos推出了基于搜索机器人的数据发现技术,并允许搜索结果相关性排序额,它还第一次性让搜索引擎能够经常使用网页智能摘要。
1995年底,Alta Vista推出,由于它具有少量的新的搜索性能,深受公众好评,Alta Vista是第一个允许人造言语搜索,具有了基于网页内容剖析、智能处置的才干,第一个成功初级搜索语法的搜索引擎(如AND,OR,NOR等),同时还能搜索资讯群组中的内容,还能搜索图片。
这一阶段也是yahoo开展的初期阶段,大少数人在这个时刻对搜索并不相熟,也不太知道有搜索引擎这回事,但是关于yahoo,大少数人则有所了解,寻觅网站就上Yahoo。
所以,将你的网站送到Yahoo是很必要的,在此阶段,只需你的网站基本有个容貌,有必定的可看性,普通只需向Yahoo提交地址,72小时内就能出如今Yahoo目录上。
Yahoo对一切的网站启动人工归类,普通是依照字母顺序陈列网站,人造扫尾为“A”的网站排到扫尾为“B”的前面,而有两个A的网站,排在有A和B的网站前面,比如,American Airlines的网站不只排在Bank of America的前面,而且也排在American Basketball Association前面。
所以,少量网站就以谋求A字来命名。
这是搜索引擎优化的雏形。
这个逻辑和黄页电话号码的排名逻辑一样。
在这一阶段,Yahoo的栏目编辑们也在网上踊跃搜索新的网站,丰盛他们的数据库,而他们的搜索都是人工的,最典型的方法就是从一个网站的链接去访问另外一个网站。
遇到一个好的网站,他们就给站主发电子邮件,欢迎站主登录,而且都是不要钱的。
这些Yahoo编辑访问网站的行为和咱们当天看到的搜索引擎蜘蛛和机器人的方式是一样的手不释卷。
有个Yahoo编辑这么关心你的网站,比你还着急登录你的网站,而且一文不收,这个在当天是不可构想的。
你的网站登录后,你还可以随时更改登录的信息,普通72小时就失掉了降级。
值得一提的是,只管在这个时期中文网站很少,而且大少数是美国的中文网和在台湾的网站,但是Yahoo显然留意到中文网站的未来,而且迅速有个中文译名“雅虎”,而这个不只仅是由于它的开创人是杨致远。
这一阶段也是SEO的雏形时期。
网上网下出现了一些论文,探讨文字对应、数据开掘和对搜索引擎程序员的访谈。
人们初步有了让网页内容合乎搜索引擎数据库原理的含糊看法。
雷同,将网站收录到搜索引擎也是很容易的,你的网页只需关键词的经常使用到达必定密度就轻而易举地陈列在搜索引擎上了。
值得一提的是,搜索引擎InfoSeek初次做到每日降级。
早晨八点你提交网站,下午就被收录,第二天就能出如今搜索之中。
正是由于这么快的降级和这么容易的提交收录,少量的站主开局变着法子频繁登录不同的网址,英文出现Spam这个词来描画站主不担任地制作众多的渣滓,很快使这些搜索引擎吃不消。
所以,SEO从一开局就是黑色两道开局的。
白的,英文里是white-hat,就是依照能够悟出的搜索引擎原理来正当地调整自己的网站,使搜索引擎能收录并失掉好的曝光。
黑道,英文叫black-hat,这类优化者好像是黑客,寻觅搜索引擎的弱点,力求将混杂的信息强塞给搜索引擎,从而为真实的网站提高曝光时机。
这个时期,由于弱小的利润诱惑,成人网站可以说是带头去“黑”搜索引擎。
所以SEO和搜索引擎从一开局就是爱和恨的相关,这个时期,不要钱的网站优化服务也开局在美国出现。
在中文搜索引擎畛域,中国的起步其实并不晚。
1996年8月成立的搜狐公司是最早介入做相似Yahoo的治理信息分类导航的网站,曾一度有“出门找地图,上网找搜狐”的佳誉。
这个时刻,没有人留意在斯坦福大学的一个宿舍里,两个痴呆的在校生正在缓缓孕育一个令环球注目标新型搜索引擎。
他们发明了一个新的叫PageRank的通常,来从新塑造搜索引擎。
这个新型搜索引擎就是如今的Google。
二、1998-1999年:Google和SEO通常显现这一阶段,美国的互联网大会开局有一些关于网站优化的文章宣布。
这些文章开局关注到链接盛行度(Link Popularity)、名录网站链接(Directory Listing)的意义。
这段时期,搜索引擎也知道了须要限度人们的网站提交来防止渣滓网站的众多,于是开局组织还击。
Alta Vista开局大规模剔除含有“咱们来优化”或许“咱们来推行”这类文字的网页。
SEO的通常者开局看法到,要破解搜索引擎的原理越来越难。
在1999年将一个网站优化到前十名要比在1998年难上十倍。
搜索引擎开局更多关注链接盛行度的意义。
Google也在1998年收到了第一张十万美元的危险投资,搬出了斯坦福校园,正式命名为Google公司,域名也从. edu变成google. com。
这个新的搜索引擎权衡网站的关键性初次将链接盛行度作为排名的规范之一。
1999年5月,英国的FAST公司推出ALLTheWeb搜索引擎。
它的网页搜索可应用ODP智能分类,允许Flash和PDF文件搜索,允许多言语搜索,还提供资讯搜索、图像搜索、视频、MP3和FTP搜索,领有极端弱小的初级搜索性能。
这么弱小的性能使它成为最盛行的搜索引擎之一。
这一阶段的初期,搜索引擎也开局了多元化的进程,开局设立多语种的网站,比如AltaVista就率先开局了拉丁语的版本。
台湾中正大学吴升传授所指导的GAIS试验室于1998年1月创立了OpenFind中文搜索引擎。
它是最早开发的中文智能搜索引擎,号称能抓取环球最多的网页并开局进入英文搜索引擎。
1999年Google取得了两千五百万的资金,开局全力开展,并且曾经在每天处置50万次搜索,这个投资也使Google再次搬家到旧金山——硅谷地域叫Palo Alto的市区。
Google也开局结识协作同伴,从AOL到Netscape不久,Google再次搬家到的环球总部依然是旧金山——硅谷叫Mountain View的市区。
这时刻的搜索引擎开局设法控制市场,广告宽泛地出如今搜索引擎上。
这惹起了许多搜索者的反感,由于大家还是在用56KB modem上网,少量的广告使网站页面出现的太慢。
Google发现了这个影响搜索步调的致命的疑问。
繁复的网页设计使众人耳目一新,飞快地搜索速度更使得各个站主奔走相告,每个站主论坛都充溢了对Google的极好评估,杂志的采访也是接连不时地对Google启动介绍,Google的片面演出就正式登台了。
三、网络和搜索引擎的改造从2000年开局,登录一个网站到搜索引擎花的时期是越来越长。
搜索引擎热衷于不要钱服务,从一个新的搜索引擎Inktomi到Alta Vista都染上了金钱。
与此同时,搜索者宿愿有一个搜索引擎能真正地给他们带来有用的信息。
Google没有孤负人民的希冀,它的准确搜索开局坚固它在搜索引擎中的位置。
首先出局的是InfoSeek,这个InfoSeek在1998被迪士尼公司买下,变成Go. com。
从那以后,InfoSeek被放弃,而Go. com也经常使用Yahoo搜索来替代。
在1999年,InfoSeek的一位华人工程师退出了这个搜索引擎而驶向北京,他力求要创立一个“中国人自己”的搜索引擎,并且受一句中国古词“众里寻他千网络,蓦然回首,那人却在灯火阑珊处”的启示,将中国人的搜索引擎起名叫“网络”。
这个工程师就是网络的开创人之一—李彦宏。
李彦宏自己就是新一代的搜索技术专家,他早在1996年就处置了如何将基于网页品质的排序与基于相关性排序完美联合的疑问,并取得美国专利。
网络公司联合硅谷搜索引擎人才精英,依托北京最低劣的软件人才,开发了大型商业化的中文搜索引擎,中文搜索从此与英文搜索站在了同一同跑线上,同时,网络搜索奇妙地处置了数据降级的瓶颈,整个中文网页的数据库可以最快每天降级一次性。
2000年也是Flash动画、JavaScript特技Rollover和灵活图片的盛行之年。
这些灵活的方式让人喜欢,但是很少有人知道,搜索引擎不能看法这些,搜索引擎只能阅读文字,而非这些感官的创意,由于它们不时是在模拟人的阅读方式,但是却不可模拟人的感知,直到当天,搜索引擎也没有处置这个疑问。
从这一年开局,实践上,向搜索引擎呈交新的网站不须要依照以前那样在搜索引擎的页面上填写“ADD URL”,搜索引擎曾经能从一个存在的网站上发现新网站的链接来访问并收录。
在这个时刻,SEO通常者也开局知道,假设网站能被目录导航站(Directory),特意是开明目录ODP(Open Directory Project)收录,将十分有助于搜索排名的优化。
最出名的ODP是DMOZ(www. dmoz. org),由尼克·斯冠塔河鲍勃·图尔两位Sun公司的工程师在1998年开办,它是一团体工来收录网站启动分类的目录网站。
在这点上,它的组成和Yahoo是一样的。
不同的是,它是由环球的站主自己做编辑来保养的,而Yahoo是由专业编辑来保养的。
关于DMOZ,搜索引擎青眼DMOZ,是由于经过人工剖析的网站的可信度人造要高于搜索引擎蜘蛛和机器人来失掉的网站信息牢靠。
2001年的不要钱登录大为红火。
搜索引擎市场阅历大荡涤,人们开局放弃搜索引擎Hotbot,Alta Vista和Excite。
Alta Vista试图仿效Google方式来从新回到增加版的搜索引擎,但是这个负隅顽抗十分痛苦地失败了,并在2003年被Yahoo收买。
Inktomi也失去了好几个运行同伴,急剧走下坡路,2004年雷同被Yahoo收买,而且成为了当天Yahoo搜索的关键外围技术。
四、2002-2007年:Google Dance和SEO的不眠之夜其真实2001年,敏感的站主和SEO通常者觉失掉了一个从未有过的现象。
有些人对网站在Google上的排名一夜之间隐没,而有的网站则名列首位。
这个现象简直是每月一次性。
起初,人们知道,这就是Google活期地降级它的索引(Index)的距离优惠,给人的觉得就像跳舞一样,因此被SEO通常者称为Google Dance。
正是由于有Google Dance,每个SEO通常者都在Google降级的那个早晨熬夜地看自己的SEO成绩能否在Google上成功。
每次降级有赢家和输家,网上SEO论坛总有不可胜数的探讨,希冀知道下次降级能有什么可以预料的,或许猜想降级的详细日期。
搜索引擎在这个阶段中遇到更严重的众多疑问。
SEO通常者少量驳回门户网页(Doorway Page)、重复网站(Duplicate Website)、伪装网页(Cloaked Page)、暗藏链接(Hidden Links)等来试图诈骗Google。
另外,DMOZ被Google作为一个关键的收录新网站的渠道,DMOZ也被注入许多渣滓网站。
2002年是少量SEO被滥用的一年。
但是,搜索引擎从这些与SEO合法通常的奋斗中不时丰盛自己的别离技术,对抓住的网站拒绝收录,曾经收录的则给予剔除。
但是这个封闭也冤屈了不少老实的SEO网站。
在中国,网络于2001年9月开局提供公共搜索服务,并成功地使搜狐和新浪开局经常使用它的搜索技术。
同时,它还提供资讯搜索服务,迅速扩展用户群。
2003年,越来越多的网站设计对Flash的运行有了审慎的态度。
这一年也是搜索引擎继续还击渣滓众多的一年。
许多SEO通常者明白黑帽技术(black-hat)曾经行不通,而是要扎扎实实地真正提高网站的素质。
Google在2003年更是挤掉了AltaVista和Inktomi,成为独大。
Google降生于一个搜索引擎纷杂的时代,在那个时代,像Alta Vista等搜索引擎对自己的市场份额太具信念而懒得变动。
Google由各个站主和SEO通常者宣扬,从而一举青出于蓝。
Google开局还击渣滓众多,矛头直接对向曾经允许它的这些站主和SEO通常者。
这些人成了Google成功的就义品。
2003年的Google的“佛罗里达降级”(Florida Update)真是让全环球的站主领教了Google的凶猛。
倘若剧烈飓风普通,Florida Update一夜之间让千万个网站从搜索中隐没或许从前十名刮到100页以后。
这个出当初11月16日的降级,尤其对寄宿愿在行未来临的圣诞节狠赚一笔的电子商务网站损失沉重。
Google的这个降级是还击渣滓网站和不法SEO行为的一次性关键战斗。
但是,由于经常使用的过滤器(filter)不完美,冲击了很多无辜网站。
之所以叫“佛罗里达降级”,是由于这个降级由Google在佛罗里达的数据中心开局的。
之后,2004年1月叫做“Austin Update”的余波雷同也对相当多的网站形成冲击。
瞬间间,所以SEO通常者都突然摇身变成了Google Adwords的专家,大家不能不依托Google广告来维持这段节日时期的开售。
关于这两个历史性的Google降级,给了许多SEO通常者相当大的经验。
规规矩矩地从改善网站自身的素质而不是投机取巧,成为了SEO惟一可行的方法。
PPC也稳固的成为营销战略中的关键手腕,而SEO也成为搜索引擎营销(SEM)的一局部。
Yahoo在这个时刻选择与Google正式各奔前程。
短暂以来,为了补偿自己靠人工收录网站的无余,Yahoo不时驳回Google的技术来提供网络搜索。
Yahoo显示陆续购入Alta Vista,AllTheWeb和Inktomi公司,让人发觉到Yahoo的心境——它能否直接养大了Google?它的手上还有20%Google的股份!终于,在2004年2月16日,Yahoo发售了Google股份,正式告别Google,走上自己开发搜索引擎的路线。
同年,2004年9月12日,Google推出简体及繁体两种中文版本的搜索引擎。
进入2005年,最大的变动是Google Update不再是活期的优惠,而是逐渐地成为每天的递进降级。
猛烈的变动不再看见。
SEO通常者能够很快看到自己的致力能否出现了效果。
遵照搜索引擎的纪律,以正当的方法来调整、提高网站的结构和内容,成为惟一能够保障网站稳固的方法。
更关键的是,遵照这些规范操作而优化的网站,不只在Google上排名良好,还会在Yahoo和MSN上也具有不错的结果。
中文网站,假设扎实地做好网站的素质,也会在网络的排名上获益。
深化钻研查问Elasticsearch,过滤查问和全文搜索
或如何了解缺少哪些官网文件
假设我不得不用一个短语来描画Elasticsearch,我会说:
目前,Elasticsearch在十大最受欢迎的开源技术中。
公平地说,它联合了许多自身并不共同的关键性能,但是,当联合经常使用时,它可以成为最佳的搜索引擎/剖析平台。
更准确地说,由于以下性能的联合,Elasticsearch变得如此盛行:
· 搜索相关性评分
· 全文搜索
· 剖析(汇总)
· 无形式(对数据形式有限度),NoSQL,面向文档
· 丰盛的数据类型选用
· 水平可扩展
· 容错的
经过与Elasticsearch启动协作,我很快看法到,官网文档看起来更像是所谓文档的挤压。
我不得不在Google上到处搜索,并且少量经常使用stackowerflow,所以我选择编译这篇文章中的一切信息。
在本文中,我将关键撰写无关查问/搜索Elasticsearch集群的文章。
您可以经过多种不同的方式来成功大抵相反的结果,因此,我将尝试说明每种方法的利害。
更关键的是,我将向您引见两个关键的概念-查问和过滤器高低文-在文档中没有很好地解释。
我将为您提供一组规定,以选择何时经常使用哪种方法更好。
在阅读本文后,假设我只想让您记住一件事,那就是:
当咱们议论Elasticsearch时,总会有一个相关性分数。
相关性分数是严厉的正浮点数,示意每个文档满足搜索规范的水平。
该分数是相关于调配的最高分数的,因此,分数越高,文档与搜索条件的相关性越好。
但是,过滤器和查问是您在编写查问之前应该能够了解的两个不同概念。
普通来说,过滤器高低文是一个是/否选项,其中每个文档都与查问婚配或不婚配。
一个很好的例子是SQL WHERE,前面是一些条件。
SQL查问总是前往严厉合乎条件的行。
SQL查问不可前往歧义结果。
另一方面,Elasticsearch查问高低文显示了每个文档与您的需求的婚配水平。
为此,查问经常使用剖析器查找最佳婚配。
阅历规律是将过滤器用于:
· 是/否搜索
· 搜索准确值(数字,范围和关键字)
将查问用于:
· 结果不明白(某些文档比其余文档更适宜)
· 全文搜索
此外,Elasticsearch将智能缓存过滤器的结果。
在第1局部和第2局部中,我将探讨查问(可以转换为过滤器)。
请不要将结构化和全文与查问和过滤器混杂-这是两件事。
结构化查问也称为术语级查问,是一组查问方法,用于审核能否应选用文档。
因此,在很多状况下,没有真正必要的相关性评分-文档婚配或不婚配(尤其是数字)。
术语级查问依然是查问,因此它们将前往分数。
名词查问 Term Query
前往字段值与条件齐全婚配的文档。 查问一词是SQL select * from table_name where column_name =...的替代方式
名词查问直接进入倒排索引,这可以使其极速启动。
在处置文本数据时,最好仅将term用于keyword字段。
名词查问自动状况下在查问高低文中运转,因此,它将计算分数。
即使一切前往的文档的分数相反,也将触及其余计算才干。
带有过滤条件的 名词 查问
假设咱们想减速名词查问并使其失掉缓存,则应将其包装在constant_score过滤器中。
还记得阅历规律吗? 假设您不关心相关性得分,请经常使用此方法。
如今,该查问没有计算任何相关性分数,因此,它更快。
而且,它是智能缓存的。
极速倡导-对文本字段经常使用婚配而不是名词。
请记住,名词查问直接进入倒排索引。
名词查问驳回您提供的值并按原样搜索它,这就是为什么它十分适宜查问未经任何转换存储的keyword字段。
多名词查问 Terms query
如您所料,多名词查问使您可以前往至少婚配一个确切名词的文档。
多名词查问在某种水平上是SQL select * from table_name where column_name is in...的替代方法
关键的是要了解,Elasticsearch中的查问字段或许是一个列表,例如{“ name”:“ Odin”,“ Woden”,“ Wodan”]}。
假设您口头的术语查问蕴含以下一个或多个,则该记载将被婚配-它不用婚配字段中的一切值,而只婚配一个。
与名词查问相反,但是这次您可以在查问字段中指定多少个确切术语。
您指定必需婚配的数量-一,二,三或所有。
但是,此数字是另一个数字字段。
因此,每个文档都应蕴含该编号(特定于该特定文档)。
前往查问字段值在定义范围内的文档。
等价于SQL select * from table_name where column_name is between...
范围查问具有自己的语法:
· gt 大于
· gte 大于或等于
· lt 小于
· lte 小于或等于
一个示例,该字段的值应≥4且≤17
正则表白式查问前往其中字段与您的正则表白式婚配的文档。
假设您从未经常使用过正则表白式,那么我剧烈倡导您至少了解一下它是什么以及何时可以经常使用它。
Elasticsearch的正则表白式是Lucene的正则表白式。
它具有规范的保管字符和运算符。
假设您曾经经常使用过Python的re软件包,那么在这里经常使用它应该不是疑问。
惟一的区别是Lucene的引擎不允许^和$等锚运算符。
您可以在官网文档中找到regexp的完整列表。
除正则表白式查问外,Elsticsearch还具有通配符和前缀查问。
从逻辑上讲,这两个只是regexp的不凡状况。
可怜的是,我找不到关于这三个查问的性能的任何信息,因此,我选择自己对其启动测试,以检查能否发现任何严重差异。
在比拟经常使用rehexp和通配符查问时,我找不到性能上的差异。
假设您知道有什么不同,请给我发信息。
由于Elasticsearch是无形式的(或没有严厉的形式限度),因此当不同的文档具有不同的字段时,这是一种很经常出现的状况。
结果,有很多用途来了解文档能否具有某些特定字段。
全文查问实用于非结构化文本数据。
全文查问应用了剖析器。
因此,我将简明概述Elasticsearch的剖析器,以便咱们可以更好地剖析全文查问。
每次将文本类型数据拔出Elasticsearch索引时,都会对其启动剖析,而后存储在反向索引中。
依据剖析器的性能方式,这会影响您的搜索性能,由于剖析器也实用于全文搜索。
剖析器管道包括三个阶段:
总有一个令牌生成器和零个或多个字符和令牌过滤器。
1)字符过滤器按原样接纳文本数据,而后或许在对数据启动标志之前对其启动预处置。 字符过滤器用于:
· 交流与给定正则表白式婚配的字符
· 交流与给定字符串婚配的字符
· 洁净的HTML文字
2)令牌生成器将字符过滤器(假设有)之后接纳到的文本数据合成为令牌。
例如,空白令牌生成器只是将文本分隔为空白(这不是规范的)。
因此,Wednesday is called after Woden, 将被拆分为Wednesday, is, called, after, Woden.]。
有许多内置标志器可用于创立自定义剖析器。
删除标点符号后,规范令牌生成器将经常使用空格分隔文本。
关于绝大少数言语来说,这是最中立的选用。
除标志化外,标志化器还口头以下操作:
· 跟踪令牌顺序,
· 注释每个单词的扫尾和开头
· 定义令牌的类型
3)令牌过滤器对令牌启动一些转换。
您可以选用将许多不同的令牌过滤器增加到剖析器中。
一些最受欢迎的是:
· 小写
· 词干(存在多种言语!)
· 删除重复
· 转换为等效的ASCII
· 形式的处置方法
· 令牌数量限度
· 令牌的中止列表(从中止列表中删除令牌)
规范剖析器是自动剖析器。
它具有0个字符过滤器,规范令牌生成器,小写字母和中止令牌过滤器。
您可以依据须要组成自定义剖析器,但是内置剖析器也很少。
言语剖析器是一些最有效的即用型剖析器,它们应用每种言语的细节来启动更初级的转换。
因此,假设您事前知道数据的言语,倡导您从规范剖析器切换为数据的一种言语。
全文查问将经常使用与索引数据时经常使用的剖析器相反的剖析器。
更准确地说,您查问的文本将与搜索字段中的文本数据启动相反的转换,因此两者处于同一级别。
婚配查问是用于查问文本字段的规范查问。
咱们可以将婚配查问称为名词查问的等效项,但实用于文本类型字段(而在处置文本数据时,名词应仅用于关键字类型字段)。
自动状况下,传递给查问参数的字符串(必需的一个)将由与运行于搜索字段的剖析器相反的剖析器处置。
除非您自己经常使用analyzer参数指定剖析器。
当您指定要搜索的短语时,将对其启动剖析,并且结果一直是一组标志。
自动状况下,Elasticsearch将在一切这些标志之间经常使用OR运算符。
这象征着至少应该有一场较量-更多的较量只管会得分更高。
您可以在运算符参数中将其切换为AND。
在这种状况下,必需在文档中找到一切令牌才干将其前往。
假设要在OR和AND之间输入某些内容,则可以指定minimum_should_match参数,该参数指定应婚配的子句数。
可以数字和百分比指定。
含糊参数(可选)可让您疏忽错别字。
Levenshtein距离用于计算。
假设您将婚配查问运行于关键字keyword字段,则其效果与词条查问相反。
更幽默的是,假设将存储在反向索引中的令牌确实切值传递给term查问,则它将前往与婚配查问齐全相反的结果,但是会更快地前往到反向索引。
与婚配相反,但顺序和凑近度很关键。
婚配查问不了解序列和凑近度,因此,只要经过其余类型的查问才干成功词组婚配。
match_phrase查问具有slop参数(自动值为0),该参数担任跳过术语。
因此,假设您指定斜率等于1,则短语中或许会省略一个单词。
多重比对查问的性能与比对相反,惟一的不同是多重比对实用于多个栏位
· 字段称号可以经常使用通配符指定
· 自动状况下,每个字段均加权
· 每个畛域对得分的奉献都可以提高
· 假设没有在fields参数中指定任何字段,那么将搜索一切合乎条件的字段
有多种类型的multi_match。 我不会在这篇文章中描画它们,但是我将解释最受欢迎的:
best_fields类型(自动值)更喜欢在一个字段中找来到自搜索值的令牌的结果,而不是将搜索的令牌调配到不同字段中的结果。
most_fields与best_fields类型相反。
phrase类型的行为与best_fields相反,但会搜索与match_phrase相似的整个短语。
我剧烈倡导您查阅官网文档,以审核每个字段的得分计算准确度。
复合查问将其余查问包装在一同。 复合查问:
· 联合分数
· 扭转包装查问的行为
· 将查问高低文切换到过滤高低文
· 以上马意一项
布尔查问将其余查问组合在一同。
这是最关键的复合查问。
布尔查问使您可以将查问高低文中的搜索与过滤器高低文搜索联合在一同。
布尔查问具有四个可以组合在一同的出现(类型):
· must或必需满足该条款
· should或假设满足条款,则对相关性得分加分
· 过滤器filter或必需满足该条款,但不计算相关性得分
· must_not或“与必需相反”,不会有助于相关度得分
必需和应该→查问高低文
过滤器和must_not→过滤器高低文
关于那些相熟SQL的人,必需为AND,而应为OR运算符。
因此,必需满足must子句中的每个查问。
关于大少数查问,优化查问与boost参数相似,但并不相反。
增强查问将前往与必需子句婚配的文档,并降落与否认子句婚配的文档的得分。
如咱们在术语查问示例中先前看到的,constant_score查问将任何查问转换为相关性得分等于boost参数(自动值为1)的过滤器高低文。
让我知道能否您想阅读另一篇文章,其中提供了一切查问的真实示例。
我方案在Elasticsearch上颁布更多文章,所以不要错过。
你曾经读了很长的内容,所以假设你阅读到这里:
综上所述,Elasticsearch合乎当今的许多用途,有时很难了解什么是最佳工具。
假设不须要相关性分数来检索数据,请尝试切换到过滤器高低文。
另外,了解Elasticsearch的上班原理也至关关键,因此,我倡导您一直了解剖析器的性能。
Elasticsearch中还有许多其余查问类型。
我试图描画最罕用的。
我宿愿你喜欢它。
(本文翻译自kotartemiy ✔️的文章《Deep Dive into Querying Elasticsearch. Filter vs Query. Full-text search》,参考:
文章评论