首页 SEO攻略 正文

一 常识图谱基础 (图谱解释)

SEO攻略 2024-08-01 31
一

本文目录导航:

常识图谱基础(一)-什么是常识图谱

笔者是一只曾经离任的AI产品经理,重要长于的方向是常识图谱与人造言语处置,写这些文章是为了总结演绎目前曾经搭建的常识体系,也在于科普。

如有不对,请斧正。

常识图谱在国际属于一个比拟新兴的概念,国际目前paper都比拟少,运行方重要集中在BAT这类手握海量数据的企业,这个概念是google在2012年提出的,过后重要是为了将传统的keyword-base搜查模型向基于语义的搜查更新。

常识图谱可以用来更好的查问复杂的关联消息,从语义层面了解用户用意,改良搜查品质。

团体以为,常识图谱最大的长处是在于对数据的形容才干十分弱小,各种机器学习算法只管在预测才干上很不错,然而在形容才干上十分弱,常识图谱刚好填补了这局部空缺。

常识图谱的定义十分多,我这里提供一局部我自己的了解: 1.常识图谱重要指标是用来形容实在环球中存在的各种实体和概念,以及他们之间的强相关,咱们用相关去形容两个实体之间的关联,例如姚明和火箭队之间的相关,他们的属性,咱们就用“属性--值对“来描写它的外在个性,比如说咱们的人物,他有年龄、身高、体重属性。

2.常识图谱可以经过人为构建与定义,去形容各种概念之间的弱相关,例如:“忘了订单号”和“找回订单号”之间的相关 常识库目前可以分为两种类型:Curated KBs 和 Extracted KBs Curated KBs:以yago2和freebase为代表,他们从维基百科和WordNet等常识库抽取了少量的实体及实体相关,可以把它了解城一种结构化的维基百科。

Extracted KBs:重要是以Open Information Extraction (Open IE), Never-Ending Language Learning (NELL)为代表,他们间接从上亿个网页中抽取实体相关三元组。

与freebase相比,这样失掉的实体常识更具备多样性,而它们的实体相关和实体更多的则是人造言语的方式,如“姚明出世于上海。

” 可以被示意为(“Yao Ming”, “was also born in”, “Shanghai”)。

间接从网页中抽取进去的常识,也会存在必定的噪声,其准确度低于Curated KBs。

a)“姚明出世于上海”b)“姚明是篮球静止员” c)“姚明是现任中国篮协主席” 以上就是一条条常识,把少量的常识会聚起来就成为了常识库(Knowledge Base)。

咱们可以从wikipedia,网络百科等百科全书失掉到少量的常识。

然而,这些百科全书的常识是由非结构化的人造言语组建而成的,这样的组织方式很适宜人们浏览但并不适宜计算机处置。

为了繁难计算机的处置和了解,咱们须要愈加方式化、繁复化的方式去示意常识,那就是三元组(triple)。

“姚明出世于中国上海” 可以用三元组示意为(Yao Ming, PlaceOfBirth, Shanghai)1]。

这里咱们可以繁难的把三元组了解为(实体entity,实体相关relation,实体entity)。

假设咱们把实体看作是结点,把实体相关(包括属性,类别等等)看作是一条边,那么蕴含了少量三元组的常识库就成为了一个宏大的常识图。

有些时刻会将实体称为topic,如Justin Bieber。

实体相关也可分为两种,一种是属性property,一种是相关relation。

如下图所示,属性和相关的最大区别在于,属性所在的三元组对应的两个实体,经常是一个topic和一个字符串,如属性Type/Gender,对应的三元组(Justin Bieber, Type, Person),而相关所在的三元组所对应的两个实体,经常是两个topic。

如相关PlaceOfBrith,对应的三元组(Justin Bieber, PlaceOfBrith, London)。

(图中蓝色方块示意topic,橙色椭圆包括属性值,它们都属于常识库的实体;蓝色直线示意相关,橙色直线示意属性,它们都统称为常识库的实体相关,都可以用三元组描写实体和实体相关)这里只是繁难引见一下数据结构,常识表白这一块会在《常识图谱基础(二)-常识图谱的常识表白系统》中详细解说。

读者只需记住,freebase的基础常识表白方式:(实体)-相关]-(实体),(实体)-相关]-(值)即可,参考图3,姚明和叶莉的相关。

经过常识图谱,不只可以将互联网的消息表白成更凑近人类认知环球的方式,而且提供了一种更好的组织、治理和应用海量消息的方式。

下图是笔者整顿的常识图谱无关的运行,接上去的一些文章笔者会对上方的运前启动剖析。

从图4上看,常识图谱的运行重要集中在搜查与介绍畛域,robot(客服机器人,公家助理)是问答系统,实质上也是搜查与介绍的加长。

或者是由于常识图谱这项技术(特指freebase)降生之初就是为了处置搜查疑问的。

常识存储这一块或者是企查查和启信宝这些企业发现经常使用图结构的数据比拟好荡涤加工。

在语义搜查这一块,常识图谱的搜查不同于惯例的搜查,惯例的搜查是依据keyword找到对应的网页汇合,而后经过page rank等算法去给网页汇合内的网页启动排名,而后展现给用户;基于常识图谱的搜查是在已有的图谱常识库中遍历常识,而后将查问到的常识前往给用户,通常假设门路正确,查问进去的常识只要1个或几个,相当精准。

问答系统这一块,系统雷同会首先在常识图谱的协助下对用户经常使用人造言语提出的疑问启动语义剖析和语法剖析,进而将其转化成结构化方式的查问语句,而后在常识图谱中查问答案。

威金斯所说的运行重要是指选用题

威金斯所说的运行重要是指威金斯了解模型的运行。

威金斯了解模型是一种基于认知心思学实践的认知建模方法,旨在模拟人类对言语和语义的了解环节。

该模型被宽泛用于人造言语处置、机器学习和人工默认畛域,以协助计算机更好地理解和处置人造言语文本。

威金斯了解模型重要包括以下几个关键组成局部:

1、语法剖析:模型首先对输入的文本启动语法剖析,以识别各个单词和短语之间的语法相关和结构。

2、语义示意:经过语法剖析,模型将文本转化为语义示意,行将句子的意思以结构化的方式编码。

3、语义关联:模型经常使用语义关联技术来识别和建设单词和短语之间的语义相关。

这有助于模型推理和了解文本的意义。

4、基于常识库的推理:威金斯了解模型还基于已有的常识库启动推理,以填补文本中的间隙并推断更多的消息。

5、高低文了解:模型能够应用高低文消息来更好地理解文本。

它思考前后文的语义相关和指代相关,以取得更准确的了解结果。

威金斯了解模型的运行

1、人造言语处置:该模型可运行于问答系统、机器翻译、消息检索和消息抽取等人造言语处置义务,以提高计算机对文本的了解才干。

2、默认助理:应用威金斯了解模型,默认助理能够更准确地理解用户的指令和需求,从而提供更精准的回答和倡导。

3、情感剖析:该模型可以协助人工默认系统剖析文本中的情感偏差和情感形态,用于情感识别、舆情监测和情感推理等畛域。

4、语义搜查:经过威金斯了解模型,搜查引擎可以更深化地理解用户的搜查用意,提供更准确的搜查结果。

常识图谱可以用python构建吗?

常识图谱可以用python构建吗?

答案当然是可以的!!!

那么如何经常使用python构建

什么是常识图谱

从Google搜查,到聊天机器人、金融风控、物联网场景、默认医疗、自顺应教育、介绍系统,无一不跟常识图谱相关。

它在技术畛域的热度也在逐年回升。

互联网的终极外形是万物的互联,而搜查的终极指标是对万物的间接搜查。

传统搜查引擎依托网页之间的超链接成功网页的搜查,而语义搜查是间接对事物启动搜查,如人物、机构、地点等。

这些事物或者来自文本、图片、视频、音频、IoT设施等各种消息资源。

而常识图谱和语义技术提供了对于这些事物的分类、属性和相关的形容,使得搜查引擎可以间接对事物启动索引和搜查。

常识图谱是由Google公司在2012年提进去的一个新的概念。

从学术的角度,咱们可以对常识图谱给一个这样的定义:“常识图谱实质上是语义网络(Semantic Network)的常识库”。

但这有点形象,所以换个角度,从实践运行的角度登程其实可以繁难地把常识图谱了解成多相关图(Multi-relational Graph)。

那什么叫多相关图呢? 学过数据结构的都应该知道什么是图(Graph)。

图是由节点(Vertex)和边(Edge)来导致,但这些图通常只蕴含一种类型的节点和边。

但雷同,多相关图普通蕴含多种类型的节点和多种类型的边。

本名目应用pandas将excel中数据抽取,以三元组方式加载到neo4j数据库中构建相关常识图谱。

运转环境

基于Neo4j能够很容易构建常识图谱,除了用neo4j自带的cypher,也允许Python包py2neo创立节点和相关从而构建常识图谱。

本名目是基于发票消息,将发票数据中结构化数据形象成三元组,区分创立节点和相关从而构建成常识图谱。

详细包依赖可以参考文件

neo4j-driver==1.6.2numpy==1.15.3pandas==0.23.4parso==0.3.1pickleshare==0.7.5pluggy==0.8.0prompt-toolkit==1.0.15py==1.7.0py2neo==3Pygments==2.2.0pytest==3.9.3python-dateutil==2.7.5wcwidth==0.1.7wincertstore==0.2xlrd==1.1.0

将所需依赖装置到pyton中:pip install -r

Pandas抽取excel数据

python中pandas十分实用于数据剖析与处置,可以将excel文件转换成dataframe格局,这种格局相似于Spark中的Dataframe结构,可以用类sql的方式对数据启动处置。Excel数据结构如下

经过函数data_extraction和函数relation_extrantion区分抽取构建常识图谱所须要的节点数据以及咨询数据,构建三元组。数据提取重要驳回pandas将excel数据转换成dataframe类型invoice_

建设常识图谱所需节点和相关数据

详细代码请移步到GitHub高低载

详细内容请到github下载,名目名neo4j-python-pandas-py2neo-v3

更多Python常识,请关注:Python自学网!!

第三方教程!wepoker作弊透视方法@2024攻略原来是真的有挂的-哔哩哔哩
« 上一篇 2024-08-01
2024透明挂!德州局wepoker辅助方法@2024攻略原来是真的有挂的-知乎
下一篇 » 2024-08-01

文章评论