首页 二次元 正文

知识图谱怎样结合 大言语模型 (知识图谱怎样从半结构化数据中抽取知识)

二次元 2024-09-10 19

本文目录导航:

大言语模型+知识图谱怎样结合?

大言语模型(Large Language Models, LLM)与知识图谱(Knowledge Graphs, KG)的结合,是近年来自然言语处置畛域的一个关键钻研方向,旨在融合两者的优势,以优化模型的性能、准确性和适用性。

结合方式关键包括以下几个方面:1. 预训练阶段融入知识图谱:在大言语模型的训练环节中,间接将知识图谱中的结构化数据作为输入,经过实体链接(Entity Linking)、相关抽取等技术,将实体和相关嵌入到模型的训练数据中。

这样可以让模型学习到实体间的相关和背景知识,增强模型对环球知识的了解和推理才干。

2. Fine-tuning阶段应用知识图谱辅佐:在特定义务的微调阶段,应用知识图谱中的消息来指点模型学习。

例如,在问答系统中,可以经常使用知识图谱来挑选和验证候选答案,提高回答的准确性和牢靠性。

3. 联结建模与推理:设计融合架构,将大言语模型和知识图谱编码器集成在一同,成功端到端的训练和推理。

这种架构准许模型在处置义务时同时应用文本和结构化知识,比如在自然言语生成义务中,模型可以应用知识图谱中的实体和相关来丰盛生成文本的消息含量和逻辑连接性。

4. 知识增强的推理和生成:应用大言语模型弱小的生成才干,结合知识图谱的结构化消息,启动知识补全、推理和文本生成。

例如,模型可以依据现有知识图谱中的实体和相关,生成新的理想陈说或预测未知的实体相关。

5. 知识疏导的解释性:大言语模型常因不足可解释性而遭到批判,而知识图谱的参与可以协助提供决策的依据。

当模型做出某个判别或回答时,可以借助知识图谱中的门路和证据来解释其决策环节,增强模型的透明度和可信度。

6. 灵活降级与交互:知识图谱可以是灵活降级的,大言语模型也可以经过继续学习的方式排汇新知识。

两者结合时,可以设计机制使得模型能够实时地利用最新的知识图谱消息,或依据模型的经常使用状况反哺知识图谱的完善。

综上所述,大言语模型与知识图谱的结合是经过深度整合两种技术的优势,既施展了大言语模型在言语了解和生成上的弱小才干,又应用了知识图谱的结构化知识和推理才干,独特推进了AI无了解复杂情境、提供精准消息和智能决策等方面的提高。

蓝凌软件的智能知识治理平台,就是结合了大言语模型和知识图谱技术,成功知识采集、加工、存储、共享等环节的智能化撑持,笼罩智能入库、智能入图、智能搜查、智能问答、智能编写、智能采集等系列配置,并构建各类场景驱动的知识运行,可助力组织优化知识治理水平,增强知识效益,促成提效降本。

知识图谱技术的技术流程

知识图谱技术的技术流程内容如下:

普通流程为:首先确定知识示意模型,而后依据数据起源选用不同的知识失掉手腕导入知识,接着综合应用知识推理、知识融合、知识开掘等技术对构建的知识图谱启动品质优化,最后依据场景需求设计不同的知识访问与出现方法,如语义搜查、问答交互、图谱可视化剖析等。

每一种数据源的知识化都须要综合各种不同的技术手腕。

例如,关于文本数据源,须要综合实体识别、实体链接、相关抽取、事情抽取等各种自然言语处置技术,成功从文本中抽取知识。

2.知识示意与Schema工程

知识示意是指用计算机符号形容和示意人脑中的知识,以支持机器模拟人的心智启动推理的方法与技术。

知识示意选择了图谱构建的产出指标,即知识图谱的语义形容框架(Description Framework)、Schema 与本体(Ontology)、知识替换语法(Syntax)、实体命名及ID体系。

3.知识抽取

知识抽取按义务可以分为概念抽取、实体识别、相关抽取、事情抽取和规定抽取等。

传统专家系统时代的知识关键依托专家手工录入,难以扩展规模。

4.知识融合

在构建知识图谱时,可以从第三方知识库产品或已有结构化数据中失掉知识输入。

例如,关联放开数据名目(Linked Open>知识图谱是什么?有哪些运行价值

知识图谱 (Knowledge Graph) 是以后的钻研热点。

自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。

各大互联网企业在之后的短短一年内纷繁推出了自己的知识图谱产品以作为回应。

比如在国际,互联网巨头网络和网络区分推出”知心“和”知立方”来改良其搜查品质。

那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 知识图谱可以有哪方面的运行呢?

目录1. 什么是知识图谱?2. 知识图谱的示意3. 知识图谱的存储4. 运行5. 应战6. 结语

1. 什么是知识图谱?

知识图谱实质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。

在知识图谱里,每个节点示意理想环球中存在的“实体”,每条边为实体与实体之间的“相关”。

知识图谱是相关的最有效的示意方式。

深刻地讲,知识图谱就是把一切不同种类的消息(Heterogeneous Information)衔接在一同而失掉的一个相关网络。

知识图谱提供了从“相关”的角度去剖析疑问的才干。

知识图谱这个概念最早由Google提出,关键是用来优化现有的搜查引擎。

不同于基于关键词搜查的传统搜查引擎,知识图谱可用来更好地查问复杂的关联消息,从语义层面了解用户用意,改良搜查品质。

比如在Google的搜查框里输入Bill Gates的时刻,搜查结果页面的右侧还会产生Bill Gates相关的消息比如出世年月,家庭状况等等。

另外,关于稍微复杂的搜查语句比如 ”Who is the wife of Bill Gates“,Google能准确前往他的妻子Melinda Gates。

这就说明搜查引擎经过知识图谱真歪了解了用户的用意。

上方提到的知识图谱都是属于比拟普遍的范围,在通用畛域里处置搜查引擎优化和问答系统(Question-Answering)等方面的疑问。

接上去咱们看一下特定畛域里的 (Domain-Specific) 知识图谱示意方式和运行,这也是工业界比拟关心的话题。

2. 知识图谱的示意

假定咱们用知识图谱来形容一个理想(Fact) - “张三是李四的父亲”。

这里的实体是张三和李四,相关是“父亲”(is_father_of)。

当然,张三和李四也或许会跟其他人存在着某种类型的相关(临时不思考)。

当咱们把电话号码也作为节点参与到知识图谱以后(电话号码也是实体),人和电话之间也可以定义一种相关叫 has_phone,就是说某个电话号码是属于某团体。

上方的图就展现了这两种不同的相关。

另外,咱们可以把期间作为属性(Property)减少到 has_phone 相关里来示意放开电话号码的期间。

这种属性不只可以加到相关里,还可以加到实体当中,当咱们把一切这些消息作为相关或许实体的属性减少后,所失掉的图谱称之为属性图 (Property Graph)。

属性图和传统的RDF格局都可以作为知识图谱的示意和存储方式,但二者还是有区别的,这将在前面章节做方便说明。

3. 知识图谱的存储

知识图谱是基于图的数据结构,它的存储方式关键有两种方式:RDF存储格局和图数据库(Graph target=_blank>

当然,假设须要设计的知识图谱十分方便,而且查问也不会触及到1度以上的关联查问,咱们也可以选用用相关型数据存储格局来保留知识图谱。

但对那些稍微复杂的相关网络(理想生存中的实体和相关普遍都比拟复杂),知识图谱的优势还是十分清楚的。

首先,在关联查问的效率上会比传统的存储方式有清楚的提高。

当咱们触及到2,3度的关联查问,基于知识图谱的查问效率会高出几千倍甚至几百万倍。

其次,基于图的存储在设计上会十分灵敏,普通只要要部分的改动即可。

比如咱们有一个新的数据源,咱们只要要在已有的图谱上拔出就可以。

于此同样,相关型存储方式灵敏性方面比拟差,它一切的Schema都是提早定义好的,假设后续要扭转,它的代价是十分高的。

最后,把实体和相关存储在图数据结构是一种合乎整个故事逻辑的最好的方式。

4. 运行

在本文中,咱们关键探讨知识图谱在互联网金融行业中的运行。

当然,很多运行场景和想法都可以加长到其余的各行各业。

这里提到的运行场景只是冰山一角, 在很多其余的运行上,知识图谱依然可以施展它潜在的价值, 咱们在后续的文章中会继续探讨。

反欺诈

反欺诈是风控中十分关键的一道环节。

基于大数据的反欺诈的难点在于如何把不同起源的数据(结构化,非结构)整合在一同,并构建反欺诈引擎,从而有效地识别出欺诈案件(比如身份造假,集团欺诈,代办包装等)。

而且不少欺诈案件会触及到复杂的相关网络,这也给欺诈查看带来了新的应战。

知识图谱,作为相关的间接示意方式,可以很好地处置这两个疑问。

首先,知识图谱提供十分方便的方式来减少新的数据源,这一点在前面提到过。

其次,知识图谱自身就是用来示意相关的,这种直观的示意方法可以协助咱们更有效地剖析复杂相关中存在的特定的潜在危险。

反欺诈的外围是人,首先须要把与借款人相关的一切的数据源买通,并构建蕴含少数据源的知识图谱,从而整分解为一台机器可以了解的结构化的知识。

在这里,咱们不只可以整合借款人的基本消息(比如放开时填写的消息),还可以把借款人的生产记载、行为记载、网上的阅读记载等整合到整个知识图谱里,从而启动剖析和预测。

这里的一个难点是很多的数据都是从网络上失掉的非结构化数据,须要应用机器学习、自然言语处置技术把这些数据变成结构化的数据。

不分歧性验证

不分歧性验证可以用来判别一个借款人的欺诈危险,这个跟交叉验证相似。

比如借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司齐全不一样,这就成了一个危险点,须要查看人员分内的留意。

再比如,借款人说跟张三是好友相关,跟李四是父子相关。

当咱们试图把借款人的消息减少到知识图谱里的时刻,“分歧性验证”引擎会触发。

引擎首先会去读取张三和李四的相关,从而去验证这个“三角相关”能否正确。

很显然,好友的好友不是父子相关,所以存在着清楚的不分歧性。

不分歧性验证触及到知识的推理。

深刻地讲,知识的推理可以了解成“链接预测”,也就是从已有的相关图谱里推导出新的相关或链接。

比如在上方的例子,假定张三和李四是好友相关,而且张三和借款人也是好友相关,那咱们可以推理偿还款人和李四也是好友相关。

组团欺诈

相比虚伪身份的识别,组团欺诈的开掘难度更大。

这种组织在十分复杂的相关网络里暗藏着,不容易被发现。

当咱们只要把其中隐含的相关网络梳理清楚,才有或许去剖析并发现其中潜在的危险。

知识图谱,作为自然的相关网络的剖析工具,可以协助咱们更容易地去识别这种潜在的危险。

举一个方便的例子,有些组团欺诈的成员会用虚伪的身份去放开存款,但部分消息是共享的。

上方的图大略说明了这种情景。

从图中可以看出张三、李四和王五之间没有间接的相关,但经过相关网络咱们很容易看出这三者之间都共享着某一部分消息,这就让咱们马上联想到欺诈危险。

只管组团欺诈的方式泛滥,但有一点值得必需的是知识图谱肯定会比其余任何的工具提供更佳方便的剖析手腕。

意外剖析(Anomaly Detection)

意外剖析是数据开掘钻研畛域里比拟关键的课题。

咱们可以把它方便了解成从给定的数据中找出“意外”点。

在咱们的运行中,这些”意外“点或许会关联到欺诈。

既然知识图谱可以看做是一个图 (Graph),知识图谱的意外剖析也大都是基于图的结构。

因为知识图谱里的实体类型、相关类型不同,意外剖析也须要把这些额外的消息思考出来。

大少数基于图的意外剖析的计算量比拟大,可以选用做离线计算。

在咱们的运行框架中,可以把意外剖析分为两大类: 静态剖析和灵活剖析,前面会逐个讲到。

- 静态剖析

所谓的静态剖析指的是,给定一个图形结构和某个期间点,从中去发现一些意外点(比如无心外的子图)。

下图中咱们可以很清楚地看到其中五个点的相互严密度十分强,或许是一个欺诈组织。

所以针对这些意外的结构,咱们可以做出进一步的剖析。

- 灵活剖析

所谓的灵活剖析指的是剖析其结构随期间变动的趋向。

咱们的假定是,在短期间内知识图谱结构的变动不会太大,假设它的变动很大,就说明或许存在意外,须要进一步的关注。

剖析结构随期间的变动会触及到时序剖析技术和图相似性计算技术。

有兴味的读者可以去参考这方面的资料【2】。

失联客户治理

除了贷前的危险控制,知识图谱也可以在贷后施展其弱小的作用。

比如在贷后失联客户治理的疑问上,知识图谱可以协助咱们开掘出更多潜在的新的咨询人,从而提高催收的成功率。

理想中,不少借款人在借款成功后产生不还款现象,而且玩“捉迷藏”,咨询不上自己。

即使试图去咨询借款人曾经提供过的其余咨询人,但还是没有方法咨询到自己。

这就进入了所谓的“失联”形态,使得催收人员也无从下手。

那接上去的疑问是,在失联的状况下,咱们有没有方法去开掘跟借款人有相关的新的咨询人? 而且这部分人群并没有以关联咨询人的身份出如今咱们的知识图谱里。

假设咱们能够开掘出更多潜在的新的咨询人,就会大大地提高催收成功率。

举个例子,在上方的相关图中,借款人跟李四有间接的相关,但咱们却咨询不上李四。

那有没有或许经过2度相关的剖析,预测并判别哪些李四的咨询人或许会心识借款人。

这就触及到图谱结构的剖析。

智能搜查及可视化展现

基于知识图谱,咱们也可以提供智能搜查和数据可视化的服务。

智能搜查的配置相似于知识图谱在Google, Baidu上的运行。

也就是说,关于每一个搜查的关键词,咱们可以经过知识图谱来前往更丰盛,更片面的消息。

比如搜查一团体的身份证号,咱们的智能搜查引擎可以前往与这团体相关的一切历史借款记载、咨询人消息、行为特色和每一个实体的标签(比如黑名单,同业等)。

另外,可视化的好处显而易见,经过可视化把复杂的消息以十分直观的方式出现出来, 使得咱们对暗藏消息的前因结果了如指掌。

知识图谱怎样结合 大言语模型 (知识图谱怎样从半结构化数据中抽取知识)

精准营销

“A knowledge graph allows you to take core information about your customer—their name, where they reside, how to contact them—and relate it to who else they know, how they interact on the web, and more”-- Michele Goetz, a Principal Analyst at Forrester Research

一个痴呆的企业可以比它的竞争对手以更为有效的方式去开掘其潜在的客户。

在互联网时代,营销手腕多种多样,但不论有多少种方式,都离不开一个外围 - 剖析用户和了解用户。

知识图谱可以结合多种数据源去剖析实体之间的相关,从而对用户的行为有更好的了解。

比如一个公司的市场经理用知识图谱来剖析用户之间的相关,去发现一个组织的独特喜好,从而可以有针对性的对某一类人群制订营销战略。

只要咱们能更好的、更深化的(Deep understanding)了解用户的需求,咱们才干更好地去做营销。

5. 应战

知识图谱在工业界还没有构成大规模的运行。

即使有部分企业试图往这个方向开展,但很多仍处于调研阶段。

关键的要素是很多企业对知识图谱并不了解,或许了解不深。

但有一点可以必需的是,知识图谱在未来几年内必将成为工业界的抢手工具,这也是从目前的趋向中很容易预测到的。

当然,知识图谱毕竟是一个比拟新的工具,所以在实践运行中肯定会触及到或多或少的应战。

数据的噪声

首先,数据中存在着很多的噪声。

即使是曾经存在库里的数据,咱们也不能保障它有100%的准确性。

在这里关键从两个方面说起。

第一,目前积攒的数据自身有失误,所以这部分失误数据须要纠正。

最方便的纠正方法就是做离线的不分歧性验证,这点在前面提过。

第二, 数据的冗余。

比如借款人张三填写公司名字为”普惠“,借款人李四填写的名字为”普惠金融“,借款人王五则填写成”普惠金融消息服务有限公司“。

只管这三团体都附属于一家公司,但因为他们填写的名字不同,计算机则会以为他们三个是来自不同的公司。

那接上去的疑问是,怎样从海量的数据中找出这些存在歧义的名字并将它们兼并成一个名字? 这就触及到自然言语处置中的”消歧剖析”技术。

非结构化数据处置才干

在大数据时代,很少数据都是未经处置过的非结构化数据,比如文本、图片、音频、视频等。

特意在互联网金融行业里,咱们往往会面对少量的文本数据。

怎样从这些非结构化数据里提取出有价值的消息是一件十分有应战性的义务,这对把握的机器学习,数据开掘,自然言语处置才干提出了更高的门槛。

知识推理

推理才干是人类智能的关键特色,使得咱们可以从已有的知识中发现隐含的知识, 普通的推理往往须要一些规定的支持【3】。

例如“好友”的“好友”,可以推理出“好友”相关,“父亲”的“父亲”可以推理出“祖父”的相关。

再比如张三的好友很多也是李四的好友,那咱们可以推测张三和李四也很有或许是好友相关。

当然,这里会触及到概率的疑问。

当消息量特意多的时刻,怎样把这些消息(side information)有效地与推理算法结合在一同才是最关键的。

罕用的推理算法包括基于逻辑(Logic) 的推理和基于散布式示意方法(Distributed Representation)的推理。

随着深度学习在人工智能畛域的位置变得越来越关键,基于散布式示意方法的推理也成为目前钻研的热点。

假设有兴味可以参考一下这方面目前的上班停顿【4,5,6,7】。

大数据、小样本、构建有效的生态闭环是关键

只管如今能失掉的数据量十分宏大,咱们依然面临着小样本疑问,也就是样本数量少。

假定咱们须要搭建一个基于机器学习的反欺诈评分系统,咱们首先须要一些欺诈样本。

但实践上,咱们能拿到的欺诈样本数量不多,即使有几百万个存款放开,最后被咱们标志为欺诈的样本很或许也就几万个而已。

这对机器学习的建模提出了更高的应战。

每一个欺诈样本咱们都是以很高昂的“代价”失掉的。

随着期间的推移,咱们肯定会搜集到更多的样本,但样本的增长空间还是有局限的。

这有区别于传统的机器学习系统,比如图像识别,不难拿到好几十万甚至几百万的样本。

在这种小样本条件下,构建有效的生态闭环尤其的关键。

所谓的生态闭环,指的是构建有效的自反应系统使其能够实时地反应给咱们的模型,并使得模型始终地自优化从而优化准确率。

为了搭建这种自学习系统,咱们不只要完善已有的数据流系统,而且要深化到各个业务线,并对相应的流程启动优化。

这也是整个反欺诈环节必要的环节,咱们要知道整个环节都充溢着博弈。

所以咱们须要始终地经过反应信号来调整咱们的战略。

6. 结语

知识图谱在学术界和工业界遭到越来越多的关注。

除了本文中所提到的运行,知识图谱还可以运行在权限治理,人力资源治理等不同的畛域。

在后续的文章中会具体地讲到这方面的运行。

参考文献

【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.

【2】User Behavior Tutorial

【3】刘知远 知识图谱——机器大脑中的知识库 第二章 知识图谱——机器大脑中的知识库

【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.

【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).

【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).

【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).

语义网的概念 (语义网的概念由谁提出)
« 上一篇 2024-09-10
scqa模型的剖析步骤 (scqa模型四步骤)
下一篇 » 2024-09-10

文章评论