几种消息检索模型比拟 (几种消息检索方法)
本文目录导航:
几种消息检索模型比拟
关键词:消息检索模型;相关性;查问;搜查引擎中图分类号:TP391 文献标识码:A 文章编号:1007-9599 (2010) 05-0000-02Comparision on Information Retrieva ModelsSong Yawei,Xiao Cheng(Jiangsu Provincial Communications Planning and Design Institute Co.,LTD,Nanjing ,China)Abstract:This article described the main contents and the construction strategy of the models of information retrieval,demonstrated a lot of methods in common usages,which is to calculate the model of information in this article,the advantages and disadvantages were analyzed,the problems that is still existing have been addition,the current situation of this research and the development tendency of the model of information retrieval were deeply summarizad in this :Information retrieval models;Relativity;Inquiry;Search engine以后,随着互联网的遍及和网上消息的爆炸式增长,消息检索系统及其外围技术搜查引擎的性能和效率疑问已成为人们钻研和关注的焦点。
影响一个搜查引擎系统的性能有很多起因,但最关键的是消息检索模型,其钻研内容包含文档和查问的示意方法、评估文档和用户查问相关性的婚配战略、查问结果的排序方法和用户启动相关度反应的机制。
本文从钻研文档与用户查问“相关性”婚配的角度登程,对消息检索模型钻研的关键内容和构建战略启动了详细的形容,并给出了几种罕用的消息检索模型相关性算法,剖析了它们的优缺陷及存在的疑问,总结了以后消息检索模型的钻研现状和开展趋向,其目标在于提高消息检索、查问的性能和效率。
一、构建消息检索模型的战略以后,构建消息检索模型的关键战略有以下两个:(一)通用的消息检索模型构建一个通用的消息检索模型,钻研提升的婚配算法,提高查问速度、查全率和查准率,最大水平地满足普通用户的查问需求。
(二)用户兴味模型依据特定用户查问兴味要求构建用户兴味模型或共同兴味模型,能够尽或许地满足不凡用户查问的需求。
它可以构建一个适宜行业或专业运行语义要求消息失掉模型。
如google就能推断用户的使意图图,提供灵活的、即时的用户“共性化定制”消息,协助用户极速、准确地定位到所须要的消息。
二、罕用的消息检索相关性算法(一)布尔模型布尔模型是基于特色项的严厉婚配模型,文本查问的婚配规定遵照布尔运算的规律。
用户可以依据检索项在文档中的布尔逻辑相关提交查问,搜查引擎则依据事前树立的倒排文件结构,确定查问结果。
规范的布尔逻辑模型为二元逻辑,所搜查的文档要么与查问相关,要么与查问有关。
查问结果普通不启动相关性排序。
在布尔模型中,一个文档经过一个关键词条的汇合来示意,这些词条都来自一个词典。
在查问与文档婚配的环节中,关键看该文档中的词条能否满足查问条件。
布尔模型用文档的检索形态值作为一种评估查问和文档相似性的一种方法。
这里,首先定义关键词汇合S,关键词为t1,t2,…,tn。
这些关键词可以和逻辑操作符AND,OR和NOT构成不同的条件查问。
假设失掉条件表白式的值为True,该文档相关于此条查问的检索形态值为1;假设若干文档相关于此条查问的检索形态值都为1,则可以以为,这些文档与此用户的查问是相关的。
布尔模型的关键好处有两点:一是成功起来比拟容易,速度快,计算的代价相对较少。
二是查问言语表白便捷,用户可以经常使用恣意复杂的查问表白式,易于示意同义相关(如:聋教育OR不凡教育)和词组(如:计算机AND基础AND课程革新)。
它的缺陷是,因为一切检索到的与用户查问条件相关的文档具备相反的检索形态值,则不能对查问结果依照相关性启动排序;另外关键词也没有思考权重的影响,不足定量剖析和灵敏性以及不能表述含糊婚配。
而为了克制布尔型消息失掉模型查问结果的无序性,在查问结果处置中引进了含糊逻辑运算,将所检索的数据库文档消息与用户的查问要求启动含糊逻辑比拟,依照相关的优先秩序陈列查问结果。
(二)向量空间模型向量空间模型把消息库中的文本以及用户的查问都示意成向量空间中的点(向量),用它们之间夹角的余弦作为相似性度量。
向量空间模型是如今的文本检索系统以及网络搜查引擎的基础。
在向量空间模型中,消息检索系统假设触及n个关键词Term,则树立n维的向量空间,每一维都代表不同的关键词Term。
首先要树立文本和用户查问的向量,一个n元组的文档向量Di的每个坐标都经过对应关键字的权重来示意,查问向量中的权重示意对应关键词关于用户来说的关键水平。
而后启动查问向量和文本向量的相似性计算。
并可以在婚配结果的基础上启动相关反应,提升用户的查问。
在知道了文档向量与查问向量后,查问与文档的相似性就可以经过公式(2)求解。
(2)在公式(2)中,文档Di可以用n维的向量示意,其中每个重量示意某一Term在整篇文档中的权重。
Q = (q1,q2,…,qn)中ql示意Terml在Q中的权重。
向量空间模型的好处在于:1.检索词加权改良了检索效果。
2.部分婚配战略准许检索出与查问条件相近的文献。
3.可以依据相似度对文献启动排序。
它的缺陷是,在这种模型中的基本假定,关键词Term向量之间被假定为相互有关的,而实践是有时它们之间大多是依赖相关,如在人造言语中,词或短语之间存在着十分亲密的咨询。
所以这一假定对计算结果的牢靠性形成必定的影响。
另外,在查问中,也不能像布尔模型一样经常使用关键词之间的逻辑运算相关。
(三)概率模型概率模型关键是基于概率排序准则:即假设文档依照与查问的概率相关性的大小排序,那么排在最前面的是最有或许被失掉的文档。
它关键针对消息检索中相关性判别的不确定性以及查问消息示意的含糊性。
在前面的向量模型中,咱们假定关键词Term向量是正交的,不思考Term向量之间的依赖相关。
而在概率模型中,可以经过概率计算表白关键词Term之间,以及关键词Term和文档之间的依赖相关,预测文档与用户查问的相关概率,并可以对失掉的结果依照相关度概率的大小启动排序(简称PRP)。
概率模型有两个关键的参数:一个文档和用户查问的相关概率Pr(rel)及不相关概率Pr(nonrel),并且Pr(rel)=1-Pr(nonrel)。
即Pr[term t in document|document is relevant]=Rt/R (3)Pr[term t in document | document is irrelevant]= (ft-Rt)/(N- Rt) (4)其中:R示意与用户查问相关的文档数;Rt示意在相关R中产生关键词Term t的文档数;N示意文档数;ft示意在N个文档中产生关键词Term t的文档数。
由式(3)和(4),可以失掉:Pr[term t is not in document| document is relevant]= (R- Rt)/R (5)Pr[term t is not in document | document is irrelevant]=(N-ft-(R- Rt))/(N- Rt) (6)依据上方所给的“条件概率”,可以计算出关键词Term t的权重: (7)在公式(7)中,假设wt>0,标明词Term t产生的文档与用户查问相关;假设wt<0,产生Term t的文档与用户查问有关。
概率模型的关键缺陷是对文本集的依赖性过强,而且条件概率值很难预计。
概率模型的一个特例是贝叶斯网络,该网络以概率的模式定义了关键词的权重随着与其相关的关键词的权重的扭转而扭转模式。
因为该模型适用于超文本消息系统,因此该模型的运行越来越宽泛。
然而该模型的缺陷是,计算复杂度很大,因此该模型不适宜很大的网络。
三、完结语目前,大少数消息检索模型都依赖于布尔模型,而在试验环境中用的最多并居于主导位置的是传统的向量空间模型。
消息检索模型还有许多其余变种,如基于布尔模型的变种有:含糊汇合模型、裁减布尔模型;基于矢量空间模型的变种有:通用矢量空间模型、潜在语义索引模型、神经网络模型;基于概率模型的变种有:推理网模型、可信网模型。
而总体过去看,这些模型及其变种都是“语法”档次的消息检索模型,没有具备“语义”特色的规范的词会集。
林诗栋团体资料简介(林诗栋一位低劣的计算机迷信家)
林诗栋,是一位低劣的计算机迷信家,他出世于1969年,毕业于美国加州大学伯克利分校,取得了计算机迷信博士学位。
他曾在谷歌公司担任初级工程师和钻研员,担任开发和提升谷歌搜查引擎的算法和系统。
他还曾在微软公司、雅虎公司等出名科技企业担任初级技术职位。
目前,他是斯坦福大学计算机迷信系的传授,担任多个国际顶尖学术期刊和会议的编委和审稿人。
林诗栋的钻研畛域关键触及计算机算法、机器学习、数据开掘、消息检索等方面。
他在这些畛域取得了多项关键成绩,宣布了少量高水平的学术论文,被援用数超越3万次。
他还是多个国际计算机迷信学会的会士和荣誉会员,取得了多个国际和国际的学术奖项和荣誉名称。
林诗栋的钻研成绩和学术奉献失掉了宽泛的认可和赞誉,他被誉为“计算机迷信界的明星”、“搜查引擎算法之父”等。
他不时努力于推进计算机迷信的开展和运行,为人工默认、大数据等畛域的开展作出了关键奉献。
一、林诗栋的钻研畛域和成就
1.计算机算法
林诗栋在计算机算法方面的钻研成绩十分突出。
他提出了一种基于部分敏感哈希(LSH)的近似最近邻搜查算法,被宽泛运行于图像、音频、视频等多媒体数据的相似性搜查。
他还提出了一种基于随机投影的高维数据降维算法,被宽泛运行于大规模数据的可视化和剖析。
2.机器学习
林诗栋在机器学习方面的钻研成绩也十分突出。
他提出了一种基于核方法的分类算法,被宽泛运行于文本分类、图像分类等畛域。
他还提出了一种基于半监视学习的图像标注算法,被宽泛运行于图像搜查和图像识别等畛域。
3.数据开掘
林诗栋在数据开掘方面的钻研成绩也十分突出。
他提出了一种基于概率模型的聚类算法,被宽泛运行于文本聚类、社交网络剖析等畛域。
他还提出了一种基于随机游走的图像标注算法,被宽泛运行于图像搜查和图像识别等畛域。
4.消息检索
林诗栋在消息检索方面的钻研成绩也十分突出。
他提出了一种基于语义相似度的文本检索算法,被宽泛运行于搜查引擎和默认问答系统等畛域。
他还提出了一种基于用户反应的搜查结果排序算法,被宽泛运行于共性化搜查和广告介绍等畛域。
二、林诗栋的钻研方法和思维
林诗栋的钻研方法和思维具备很强的翻新性和适用性。
他注重实践钻研和实践运行的联合,擅长从实践疑问登程,提出新的算法和模型,处置实践疑问。
他还注重多学科交叉和协作钻研,与其余学科的专家和企业协作,推进计算机迷信的跨界开展和运行。
百度搜查引擎的算法是怎么的?
权衡网页品质的维度网络搜查引擎在权衡网页品质时,会从以下三个维度综合思考给出一个品质打分。
上方会逐一引见这些影响网页品质判别的维度特色:• 内容品质• 阅读体验• 可访问性 一个访问流利,内容品质高且阅读体验好的网页具备较高的品质;反之,任何一个维度产生疑问,都会影响网页的全体品质。
上方咱们详细引见下这三个维度。
权衡网页品质的维度——内容品质网页主体内容是网页的价值所在,是满足用户需求的前提基础。
网络搜查引擎评估网页内容品质关键看其主体内容的好坏,以及主体内容能否可以让用户满意。
不同类型网页的主体内容不同,网络搜查引擎判别不同网页的内容价值时,须要关注的点也有区别,如:• 首页:导航链接和介绍内容能否明晰、有效。
• 文章页:能否提供明晰完整的内容,图文并茂更佳。
• 商品页:能否提供了完整实在的商品消息和有效的购置入口。
• 问答页:能否提供了有参考价值的答案。
• 下载页:能否提供下载入口,能否有权限限度,资源能否有效。
• 文档页:能否可供用户阅读,能否有权限限度。
• 搜查结果页:搜查进去的结果能否与题目相关。
网络搜查引擎考量网页内容品质的维度十分多,最为关键的是:老本;内容完整;消息实在有效以及安保。
上方咱们经过举例来感触一下网络搜查引擎是如何对网页的内容品质启动分类的,请站长对比自己站点的页面,站在搜查引擎和用户的角度为自己打分:1、内容品质好:网络搜查引擎以为内容品质好的网页,破费了较多期间和精神编辑,倾泻了编者的阅历和专业常识;内容明晰、完整且丰盛;资源有效且优质;消息实在有效;安保无毒;不含任何舞弊行为和意图,对用户有较强的正收益。
对这部分网页,网络搜查引擎会提高其展如今用户背地的机率。
例如:• 专业医疗机构颁布的内容丰盛的医疗专题页面;• 资深工程师颁布的完整处置某个技术疑问的专业文章;• 专业视频网站上,播放明晰流利的正版电影或影视选集页面;• 出名B2C网站上,一个完整有效的商品购置页;• 威望资讯站原创或经过编辑整顿的热点资讯报道;• 经过网友仔细编辑,内容丰盛的词条;• 问答网站内,回答的内容可以完美处置提问者的疑问。
实例参考:示例 内容品质 说明case 3.1.1-1 好 专业医疗网站颁布的丰盛医疗专题页面case 3.1.1-2 好 资深工程师颁布的完整处置某个技术疑问的专业文章case 3.1.1-3 好 专业视频网站上,播放明晰流利的正版影视选集页面case 3.1.1-4 好 京东的一个完整有效的商品购置页case 3.1.1-5 好 威望资讯站原创的热点资讯的报道case 3.1.1-6 好 经过网友仔细编辑,内容丰盛的百科词条case3.1.1-7 好 网络知道上,完美处置用户疑问的问答页2、内容品质中:内容品质中等的网页往往能满足用户需求,但未破费较多期间和精神启动制造编辑,不能表现出编者的阅历和专业常识;内容完整但并不丰盛;资源有效但品质欠佳;消息虽实在有效但属采集得来;安保无毒;不含舞弊行为和意图。
在互联网中,中等品质网页其实是一个比拟大的数量汇合,种类相貌也冗杂多样,网络搜查引擎在评估这类网页时往往还要思考其它十分多起因。
在这里,咱们仅部分举例来让各位感触一下:• 论坛类网站里一个普通的帖子;• 一个普通的问答网页;• 没有启动任何编辑,间接转载其它网站的资讯;• 无版权消息的普通电影播放页• 采集出名小说网站的盗版小说页。
实例参考:示例 内容品质 说明case 3.1.2-1 中 网易间接转载了中国资讯网的一篇资讯。
case 3.1.2-2 中 文库上网友上行的“国庆放假布置”资讯case 3.1.2-3 中 采集终点小说网的盗版小说站case 3.1.2-4 中 网络贴吧里一个普通的帖子 3、内容品质差:网络搜查引擎以为主体内容消息量较少,或无有效消息、消息失效过时的都属于内容品质差网页,对用户没有什么实质性的协助,应该缩小其展现的时机。
同时,假设一个网站内该类网页的占比过大,也会影响网络搜查引擎对站点的评级,尤其是UGC网站、电商网站、黄页网站要尤其注重对过时、失效网页的治理。
例如:• 已下架的商品页,或已过时的团购页;• 已过有效期的招聘、买卖页面;• 资源已失效,如视频已删除、软件下载后不可经常使用等。
4、没有内容品质可言:没有内容品质可言的网页指那些制形老本很低,精雕细刻;从别处采集来的内容未经最最少的编辑整顿即搁置线上;挂木马等病毒;含有舞弊行为或意图;齐全不能满足用户需求,甚至含有诈骗内容的网页。
例如:• 内容空短,有很大批的内容,却不能撑持页面的关键意图;• 问答页有问无答,或回答齐全不能处置疑问;• 站内搜查结果页,但没有给出相关消息除上述网页外,诈骗用户和搜查引擎的网页在无内容品质可言汇合里占很高比例。
网络搜查引擎对舞弊网页的定义是:不以满足用户需求为目标,经过不合理手腕诈骗用户和搜查引擎从而获利的网页。
目前互联网上这部分网页还属少数,但舞弊网页的价值是负向的,对用户的损伤十分大,对这类网页,搜查引擎持波动打击态度。
权衡网页品质的维度——阅读体验不同品质的网页带给用户的阅读体验会有很大差距,一个优质的网页给用户的阅读体验应该是正向的。
用户宿愿看到洁净、易阅读的网页,排版凌乱、广告过多会影响用户对网页主体内容的失掉。
在网络搜查引擎网页品质体系中,用户对网页主体内容的失掉老本与阅读体验呈正比,即失掉老本越高,阅读体验越低。
面对内容品质相近的网页,阅读体验佳者更容易取得更高的排位,而关于阅读体验差的网页,网络搜查引擎会视状况降落其展现的机率甚至拒绝收录。
影响用户阅读体验好坏的起因很多,目前网络搜查引擎关键从内容排版、广告影响两方面对网页启动考量:内容排版:用户进入网页第一眼看到的就是内容排版,排版选择了用户对网页的第一印象,也选择了用户对内容失掉的老本。
广告影响:网络搜查引擎了解网站的生活开展须要资金支持,对网页上搁置合理广告持支持态度。
网页应该以满足用户需求为宗旨,最佳形态即“主体内容与广告一同满足用户需求,内容为主,广告为辅”,而不应让广告成为网页主体。
上方咱们经过举例来感触一下网络搜查引擎是如何对网页的阅读体验启动分类的,站长可以据此对比测验自己站点的阅读体验如何:1、阅读体验好:页面规划合理,用户失掉主体内容老本低,普通具备以下特色:• 排版合理,版式好看,易于阅读和阅读;• 用户须要的内容占据网页最关键位置;• 能够经过页面标签或页面规划十分分明地域分出哪些是广告;• 广告不抢占主体内容位置,无阻碍用户对关键内容的失掉; 实例参考:示例 阅读体验 说明case 3.2.1-1 好 招聘、房产等网站首页也有很多广告,但都是招聘相关的,阅读体验是ok的。
case 3.2.1-2 好 文章页,页面规划合理,无广告,排版好,结构合理case 3.2.1-3 好 游戏首页,排版好看,规划合理,无广告,阅读体验优2、阅读体验差:页面规划和广告搁置影响了用户对主体内容的失掉,提高了用户失掉消息的老本,令用户反感。
包含但不只限于以下状况:• 注释内容不换行或不分段,用户阅读艰巨;• 字体和背风光彩相近,内容别离艰巨;• 页面规划不合理,网页首屏看不就任何有价值的主体内容;• 广告遮挡主体内容;或许在通用分辨率下,首屏都是广告,看不到主体内容;• 弹窗广告过多;• 影响阅读的浮动广告过多• 点击链接时,产生预期之外的弹窗;• 广告与内容混杂,不易区分;权衡网页品质的维度——可访问性用户宿愿极速地从搜查引擎失掉到须要的消息,网络搜查引擎尽或许为用户提供能一次性性间接失掉一切消息的网页结果。
网络搜查引擎以为不能间接失掉到主体内容的网页对用户是不友好的,会视状况调整其展现机率。
网络搜查引擎会从反常关上、权限限度、有效性三方面判别网页的可访问性,关于可以反常访问的网页,可以介入反常排序;关于有权限限度的网页,再经过其它维度对其启动观察;关于失效网页,会降权其展现机制甚至从数据库中删除。
1、可反常访问的网页无权限限度,能间接访问一切主体内容的网页。
2、有权限限度的网页此类网页分为两种:关上权限和资源失掉权限1)关上权限:指关上网页都须要登录权限,没有权限齐全不可看到详细内容,普通用户不可失掉或失掉老本很高,网络搜查引擎会降落其展现机率。
不包含以登录为关键配置的网页。
2)资源失掉权限:指失掉网页关键内容,如文档、软件、视频等,须要权限或许须要装置插件能力取得完整内容。
此时会分三种状况:• 提供优质、正版内容的网站,因为内容树立老本很高,虽然检查全文或下载时须要权限或装置插件,但属于用户预期之内,网络搜查引擎也不以为权限行为对用户形成损伤,给予与反常可访问页面相反的看待。
• 关于一些非优质、非正版的资源,来自于用户转载甚至机器采集,自身老本较低,内容也不共同,用户失掉资源还有权限限度——须要用户注册登录或许付费检查,网络搜查引擎会依据详细状况选择能否调整其展现。
• 还有一些视频、下载资源页,兴许自身资源品质并不差,但须要装置十分冷门的插件能力反常访问,比如要求装置“xx大片播放器”,网络搜查引擎会疑心其有恶意偏差。
实例参考:示例 可访问性 说明case 3.2-1 好 CNKI上的一篇论文,不要钱能力下载,但有版权,阅读体验好case 3.2-2 好 优酷上一部新电影,须要付费能力观看,阅读体验好。
case 3.2-3 中 内容是copy来,然而须要登录能力看更多case 3.2-4 差 入党放开书,自身就是转载的,网上四处都是,但这个页面依然要求不要钱能力下载。
3、失效网页往往指死链和主体资源失效的网页。
网络搜查引擎以为这部分网页不可提供有价值消息,假设站点中此类网页过多,也会影响网络搜查引擎对其的收录和评级。
倡导站长对此类网页启动相应设置,并及时登录网络站长平台,经常使用死链提交工具告知网络搜查引擎。
失效网页包含但不只限于:• 404、403、503等网页;• 程序代码报错网页;• 关上后揭示内容被删除,或因内容已不存在跳转到首页的网页;• 被删除内容的论坛帖子,被删除的视频页面(多出如今UGC站点)详细请参阅《网络搜查引擎网页品质白皮书》,望采用!
文章评论