语义网的成功 (语义网的成功案例分析)

本文目录导航:
语义网的成功
语义网只管是一种愈加美妙的网络,但成功起来却是一项复杂而盛大的工程。
目前语义网的体系结构正在树立中,关键须要以下两方面的支持:一、 数据网络的成功即:经过一套一致的完善的数据规范对网络消息启动更彻底更详细的标志,使得语义网能够精准的识别消息,区分消息的作用和含意要使语义网搜查更准确彻底,更容易判别消息的虚实,从而到达适用的指标,首先须要制定规范,该规范准许用户给网络内容参与元数据(即解释详尽的标志),并能让用户准确地指出他们正在寻觅什么;而后,还须要找到一种方法,以确保不同的程序都能分享不同网站的内容;最后,要求用户可以参与其余性能,如参与运行软件等。
语义网的成功是基于可裁减标志言语(规范通用标志言语的子集、外语缩写:XML)和资源形容框架(外语缩写:RDF)来成功的。
XML是一种用于定义标志言语的工具,其内容包括XML申明、用以定义言语语法的DTD (document type declaration文档类型定义)、形容标志的详细说明以及文档自身。
而文档自身又蕴含有标志和内容。
RDF则用以表白网页的内容。
二、具备语义剖析才干的搜查引擎假设说数据网络能够短期间经过亿万的集体成功,那么网络的语义化智能化就要经过人类尖端智慧集体的致力成功。
研发一种具备语义剖析才干的消息搜查引擎将成为语义网的最关键一步,这种引擎能够了解人类的人造言语,并且具备必定的推理和判别才干。
语义搜查引擎(外语:semantic search engine)和具备语义剖析才干的搜查引擎(外语:semantically enabled search engine)是两码事。
前者不过是语义网络的应用,一种消息搜查方式,而具备语义剖析才干的搜查引擎是一种能够了解人造言语,经过计算机的推理而进一步提供更合乎用户心思的答案。
语义搜查引擎与罕用的搜查引擎有什么不同
望文生义,所谓语义搜查,是指搜查引擎的上班不再拘泥于用户所输入恳求语句的字面自身,而是透过现象看实质,准确地捕捉到用户所输入语句前面的真正用意,并以此来启动搜查,从而更准确地向用户前往最合乎其需求的搜查结果。
举例来说吧,当一个用户在搜查框中输入“孟字去掉子”时,深谙语义搜查的搜查引擎就能够判别出,用户想要找的并不是含有“孟”、“去掉子”等字眼的内容,而是想要查找与“皿”这个字相关的内容;雷同,当用户搜查“体现春天的图片”时,搜查引擎会向其出现出各种与春天相关的图片,而不只仅局限于该图片的题目能否蕴含“春天”字样。
搜查引擎的开展史
搜查引擎的开展史和运行1990年以前,没有任何人能搜查互联网.1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开收回Archie.过后,万维网(World Wide Web)还没有产生,人们经过FTP来共享交换资源能活期搜集并剖析FTP主机上的文件名消息,提供查找区分在各个FTP主机中的文件. 用户必定输入准确的文件名启动搜查,Archie通知用户哪个FTP主机能下载该文件.只管Archie搜集的消息资源不是网页(HTML文件),但和搜查引擎的基本上班方式是一样的:智能搜集消息资源,树立索引,提供检索服务.所以,Archie被公以为现代搜查引擎的鼻祖(机器人)一词对编程者有不凡的意义 Robot是指某个能以人类不可到达的速度始终重复口头某项义务的智能程序.由于专门用于检索消息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜查引擎的Robot程序被称为spider程序.1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个应用HTML网页之间的链接相关来检测万维网规模的机器人(Robot)程序.开局,它仅仅用来统计互联网上的主机数量,起初也能够捕捉网址(URL).1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo独特开办了Yahoo.随着访问量和收录链接数的增长,Yahoo目录开局支持繁难的数据库搜查.由于Yahoo!的数据是手工输入的,所以不能真正被归为搜查引擎,理想上只是一个可搜查的目录.雅虎于2002年12月23日收买inktomi,2003年7月14日收买包括Fast和 Altavista在内的Overture,2003年11月,Yahoo全资收买3721公司.1994年终,华盛顿大学(University of Washington )的在校生Brian Pinkerton开局了他的小名目WebCrawler.1994年4月20日,WebCrawler正式亮相时仅蕴含来自6000个主机的内容是互联网上第一个支持搜查文件所有文字的全文搜查引擎,在它之前,用户只能经过URL和摘要搜查,摘要普通来自人工评论或程序智能取注释的前100个字.1994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创立了Lycos.除了相关性排序外,Lycos还提供了前缀婚配和字符相近限度,Lycos第一个在搜查结果中经常使用了网页智能摘要,而最大的长处还是它远胜过其它搜查引擎的数据量.1994年底,Infoseek正式亮相.其友善的界面,少量的附加性能,使之和Lycos一样成为搜查引擎的关键代表.1995年,一种新的搜查引擎方式产生了——元搜查引擎(A Meta Search Engine Roundup).用户只有提交一次性搜查恳求,由元搜查引擎担任转换解决,提交给多个预先选定的独立搜查引擎,并将从各独立搜查引擎前往的一切查问结果, 集中起来解决后再前往给用户.第一个元搜查引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler.1995年12月,DEC的正式颁布是第一个支持人造言语搜查的搜查引擎,第一个成功初级搜查语法的搜查引擎(如 AND, OR, NOT等).用户可以用AltaVista搜查资讯组(Newsgroups)的内容并从互联网上取得文章,还可以搜查图片称号中的文字,搜查 Titles,搜查Java applets,搜查ActiveX 也宣称是第一个支持用户自己向网页索引库提交或删除URL的搜查引擎,并能在24小时内上线最幽默的新性能之一,是搜查有链接指向某个URL的一切网站.在面向用户的界面上,AltaVista也作了少量改造.它在搜查框区域下放了tips以协助用户更好的表白搜查式,这些小tip经常更新,这样,在搜查过几次以后,用户会看到很多他们或者素来不知道的的幽默性能.这系列性能,逐渐被其它搜查引擎宽泛驳回.1997年,AltaVista颁布了一个图形展示系统LiveTopics,协助用户从不可胜数的搜查结果中找到想要的.1995年9月26日,加州伯克利分校助教Eric Brewer,博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,弱小的HotBot产生辞世人背地.宣称每天能抓取索引1千万页以上,所以有远超越其它搜查引擎的新内容也少量运用cookie贮存用户的团体搜查喜好设置.1997年8月,Northernlight搜查引擎正式现身.它曾是领有最大数据库的搜查引擎之一,它没有Stop Words,它有杰出的Current News,7,100多出版物组成的Special Collection,良好的初级搜查语法,第一个支持对搜查结果启动繁难的智能分类.1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小名目BackRub.1995年博士生Larry Page开局学习搜查引擎设计,于1997年9月15日注册了的域名,1997年底,在Sergey Brin和Scott Hassan,Alan Steremberg的独特介入下,BachRub开局提供Demo.1999年2月,Google成功了从Alpha版到Beta版的变质公司则把1998年9月27日认作自己的生日以网页级别(Pagerank)为基础,判别网页的关键性,使得搜查结果的相关性大大增强公司的奇客(Geek)文明气氛,不作恶(Dont be evil)的理念,为Google赢得了极高的口碑和品牌佳誉.2006年4月,Google发表其中文称号谷歌,这是Google第一个在非英语国度起的名字(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术钻研的副产品.1999年5月,颁布了自己的搜查引擎 创立的指标是做环球上最大和最快的搜查引擎,几年来庶几近之(Alltheweb)的网页搜查可应用ODP智能分类,支持Flash和pdf搜查,支持多言语搜查,还提供资讯搜查,图像搜查,视频,MP3,和FTP搜查,领有极端弱小的初级搜查性能.(2003年 2月25日,Fast的互联网搜查部门被Overture收买).1996年8月,sohu公司成立,制造中文网站分类目录,曾有出门找地图,上网找搜狐的佳誉.随着互联网网站的急剧参与,这种人工编辑的分类目录曾经不顺应于2004年8月独立域名的搜查网站网络,自称第三代搜查引擎 创立于1998年1月,其技术源自台湾中正大学吴升传授所指导的GAIS试验室起先只做中文搜查引擎,鼎盛期间同时为三大驰名门户新浪,奇摩,雅虎提供中文搜查引擎,但2000年后市场逐渐被Baidu和Google瓜分.2002年6月,Openfind从新颁布基于GAIS30 Project的Openfind搜查引擎Beta版,推出多元排序(PolyRankTM),发表累计抓取网页35亿,开局进入英文搜查畛域.2000年1月,两位北大校友,超链剖析专利发明人,前Infoseek资深工程师李彦宏与朋友徐勇(加州伯克利分校博士后)在北京中关村创立了网络 (Baidu)公司.2001年8月颁布搜查引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜查引擎),2001年10月22日正式颁布Baidu搜查引擎,专一于中文搜查搜查引擎的其它特征包括:网络快照,网页预览/预览所有网页,相关搜查词,错别字纠正揭示,mp3搜查,Flash搜查.2002年3月闪电方案(Blitzen Project)开局后,技术更新显著放慢.后推出贴吧,知道,地图,国学,百科等一系列产品,深受网民欢迎.2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU.收盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录.2003年12月23日,原慧聪搜查正式独立运做,成立了中国搜查.2004年2月,中国搜查颁布桌面搜查引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway) .2005年6月,新浪正式推出自主研发的搜查引擎爱问.搜 索 引 擎 分 类搜查引擎按其上班方式关键可分为三种,区分是全文搜查引擎(Full Text Search Engine),目录索引类搜查引擎(Search Index/Directory)和元搜查引擎(Meta Search Engine).全文搜查引擎全文搜查引擎是货真价实的搜查引擎,国外具代表性的有 Google,Fast/AllTheWeb,AltaVista,Inktomi,Teoma,WiseNuti等,国际驰名的有网络(Baidu). 它们都是经过从互联网上提取的各个网站的消息(以网页文字为主)而树立的数据库中,检索与用户查问条件婚配的相关记载,而后按必定的陈列顺序将结果前往给用户,因此他们是真正的搜查引擎.从搜查结果起源的角度,全文搜查引擎又可细分为两种,一种是领有自己的检索程序(Indexer),俗称蜘蛛(Spider)程序或机器人 (Robot)程序,并自建网页数据库,搜查结果间接从自身的数据库中调用,如上方提到的7家引擎;另一种则是租用其余引擎的数据库,并按自定的格局陈列搜查结果,如Lycos引擎.目录索引目录索引只管有搜查性能,但在严厉意义上算不上是真正的搜查引擎,仅仅是按目录分类的网站链接列表而已.用户齐全可以不用启动关键词(Keywords) 查问,仅靠分类目录也可找到须要的消息.目录索引中最具代表性的莫过于小名鼎鼎的Yahoo雅虎.其余驰名的还有Open Directory Project(DMOZ),LookSmart,About等.国际的搜狐,新浪,网易搜查也都属于这一类.元搜查引擎元搜查引擎在接受用户查问恳求时,同时在其余多个引擎上启动搜查,并将结果前往给用户.驰名的元搜查引擎有 InfoSpace,Dogpile,Vivisimo等(元搜查引擎列表),中文元搜查引擎中具代表性的有搜星搜查引擎.在搜查结果陈列方面,有的间接按起源引擎陈列搜查结果,如Dogpile,有的则按自定的规定将结果从新陈列组合,如Vivisimo.除上述三大类引擎外,还有汇合式搜查引擎,门户搜查引擎,收费链接列表等几种非干流方式:由于上述网站都为用户提供搜查查问服务,为繁难起见,咱们理论将其统称为搜查引擎.几种搜查引擎的特点网络搜查引擎的特点网络搜查引擎经常使用了高性能的网络蜘蛛程序智能的在互联网中搜查消息,可定制,高裁减性的调度算法使得搜查器能在极短的期间内搜集到最大数量的互联网消息.网络在中国各地和美国均设有主机,搜查范围涵盖了中国大陆,香港,台湾,澳门,新加坡等华语地域以及北美,欧洲的局部站点.网络搜查引擎领有目前环球上最大的中文消息库,总量到达6000万页以上,并且还在以每天几十万页的速度极速增长.由于后盾运行了高效的消息索引算法,大大提高了检索时的照应速度和接受大访问量时的稳固性,网络搜查引擎对超越6000万网页检索一次性的本地平均照应期间小于0.5秒.它关键具备以下的特点和性能:1)基于字词联合的消息解决方式.2)支持干流的中文编码规范.3)智能相关度算法.4)检索结果能标示丰盛的网页属性(如题目,网址,期间,大小,编码,摘要等),并突出用户的查问串,便于用户判别能否浏览原文.5)网络搜查支持二次检索(又称渐进检索或逼进检索).6)相关检索词智能介绍技术.7)运用多线程技术,高效的搜查算法,稳固的UNIX平台,和本地化的主机,保障了最快的照应速度.8)可以提供一周,二周,周围等多种服务方式.可以在7天之内成功网页的更新,是目前更新期间最快,数据量最大的中文搜查引擎.9)检索结果输入支持内容类聚,网站类聚,内容类聚+网站类聚等多种方式.10)智能性,可裁减的搜查技术保障最快最多的搜集互联网消息.11)散布式结构,精心设计的优化算法,容错设计保障系统在大访问量下的高可用性,高裁减性,高性能和高稳固性.12)高可性能性使得搜查服务能够满足不同用户的需求.13)先进的网页灵活摘要显示技术.14)独有网络快照.15)支持多种初级检索语法,经常使用户查问效率更高,结果更准搜查引擎特点Google搜查引擎是一个应用蜘蛛程序(Spider)以某种方法智能地在互联网中搜集和发现消息,并由索引器为搜集到的消息树立索引,从而为用户提供面向网页的全文检索服的互联网消息查问系统.它关键具备以下的特点和性能:1)驳回了先进的网页级别(PageRankTM)技术.2)在同一个界面下,用户可以定制言语和到何种网站中启动搜查.3)具备超链剖析的性能.4)听从关键字的相对位置.5)优化了中文搜查引擎的相关性,而且更好地成功了检索字串与网页中文字的语义上的婚配.搜狐搜查引擎的特点搜狐网站的内容丰盛多彩,与咱们的生存咨询十分严密.搜狐分层目录是专为中国用户设计的高品质的分类目录系统,把超越15万个精选的中文站点链接归为18个大类,如:文娱,计算机与互联网,工商经济,迷信,艺术,文学,生存服务,迷信技术,政治法律等等.而有价值的用户往往只关心自己须要的专门消息.所以咱们在每个最后目录下,都树立片面丰盛的目录树系统,导致了四通八达的消息高速公路,繁难迅速地把您带到目的地.分层目录系统不只经常使用户找到最须要的专门消息,也使广告客户更方便地找到特定的用户群,到达最佳的宣传成果.在搜狐分层目录之外,还同时设立了七项搜狐频道:搜狐资讯,财经报道,搜狐体育,网猴, 多媒体,本国资源,搜狐社区.它关键具备以下的特点和性能:1)最先进的人工分类技术;2)友好的全中文界面;3)合乎中白话语文明习气;4)18个部类,近15万条链接导致的树杈型网页结构;5)最直观,最轻松为网上用户提供所须要的内容.北大天网搜查引擎的特点北大天网收录 135 万网页和 9 万资讯组文章,更新较快;性能规范;反应内容完整,包括网页题目,日期,长度和代码;可在反应结果中进一步检索;支持电子邮件查问.无分类查问.另提供北京大学,中国科院等FTP站点的检索.它关键具备以下的特点和性能:1)在语种上支持中英文搜查.国际大局部的搜查引擎都只收录中文网站,用来查找国际的英文网站.2)在文件格局上即支持www文件传输格局,也支持FTP文件传输格局.天网将FTP文件分红电影,动画片,mp3音乐,程序下载,开发资源共四大类,用户可以象目录导航式搜查引擎那样层层点击下去查找自己须要的FTP文件.如何经常使用搜查引擎搜查引擎可以协助您在Internet上找到特定的消息,但它们同时也会前往少量有关的消息.假设您多经常使用一些上方引见的技巧,将发现搜查引擎会花尽或者少的期间找到您须要确实切消息.在类别中搜查许多搜查引擎(如Yahoo!)都显示类别,如计算机和Internet,商业和经济.假设您单击其中一个类别,而后再经常使用搜查引擎,您将可以选用搜查整个Internet还是搜查以后类别.显然,在一个特定类别下启动搜查所消耗的期间较少,而且能够防止少量有关的Web站点.当然,您或者还想搜查整个Internet,以搜查特定类别之外的消息.使用详细的关键字假构想要搜查以鸟为主题的Web站点,您可以在搜查引擎中输入关键字bird.然而,搜查引擎会因此前往少量有关消息,如议论羽毛球的小鸟球 (birdie)或烹饪game birds不同方法的Web站点.为了防止这种疑问的产生,请经常使用更为详细的关键字,如ornithology(鸟类学,生物学的一个分支).您所提供的关键字越详细,搜查引擎前往有关Web站点的或者性就越小.经常使用多个关键字您还可以经过经常使用多个关键字来增加搜查范围.例如,假构想要搜查有关佛罗里达州迈阿密市的消息,则输入两个关键字Miami和Florida.假设只输入其中一个关键字,搜查引擎就会前往诸如Miami Dolphins足球队或Florida Marlins棒球队的有关消息.普通而言,您提供的关键字越多,搜查引擎前往的结果越准确.经常使用布尔运算符许多搜查引擎都准许在搜查中经常使用两个不同的布尔运算符:AND和OR.假设您想搜查一切同时蕴含单词hot和dog的Web站点,只有要在搜查引擎中输入如下关键字:hot AND dog搜查将前往以热狗(hot dog)为主题的Web站点,但还会前往一些奇异的结果,如议论如何在一个热天(hot day)让一只狗(dog)凉爽上去的Web站点.假构想要搜查一切蕴含单词hot或单词dog的Web站点,您只有要输入上方的关键字:hot OR dog搜查会前往与这两个单词有关的Web站点,这些Web站点的主题或者是热狗(hot dog),狗,也或者是不同的空调在热天(hot day)使您凉爽,辣酱(hot chilli sauces)或狗粮等.当心搜查引擎前往的结果搜查引擎前往的Web站点顺序或者会影响人们的访问,所以,为了参与Web站点的点击率,一些Web站点会付费给搜查引擎,以在相关Web站点列表中显示在靠前的位置.好的搜查引擎会甄别Web站点的内容,并据此布置它们的顺序,但其余搜查引擎大略不会这么做.此外,由于搜查引擎经常对最为罕用的关键字启动搜查,所以许多Web站点在自己的网页中暗藏了同一关键字的多个正本.这使得搜查引擎不再去查找Internet,以前往与关键字有关的更多消息.正如读报纸,听收音机或看电视资讯一样,请当心您所取得的消息的起源.搜查引擎能够帮您找到消息,但不可验证消息的牢靠性.由于任何人都可以在网上颁布消息.
文章评论