企业常识图谱可以处置哪些疑问 (企业常识图谱怎么做)
本文目录导航:
企业常识图谱可以处置哪些疑问?
企业常识图谱是从技术层面协助企业处置各类数据的处置疑问,并对业务需求启动精准计算,企业常识图谱可以处置的疑问关键有以下三点: 1、对非规范数据的处置存在较高的技术难度:传统的产品和打算聚焦于对企业外部繁多系统的数据启动处置,但外部数据的处置不足一致的规范,影响企业上班效率。
当须要处置的数据规模较大、较复杂时,就须要应用人工默认技术和语义工程技术搭建企业常识图谱加以处置。
2、对非结构化数据的处置存在较高的技术难度:传统的产品和打算理论用来处置结构化数据,也就是数据库内已存储的,计算好的数据。
但理想中存在少量的非结构化数据,如语音、PDF等。
要先针对业务场景的需求将这些数据结构化,再启动处置。
这种针对业务需求将非结构化文本结构化的上班,只要企业常识图谱可以胜任。
3、传统的搜查技术不可针对业务需求启动精准计算:在对非规范和非结构化数据启动处置时,传统的产品和打算理论采取搜查的方式来启动处置,将企业对少量数据启动剖析计算的需求,转化为经常使用若干关键词启动近似查找。
但这种方式不可满足在消费环节中对结果的精度和召回率要求,常识图谱技术可以完美处置这一疑问。
常识图谱是什么,有哪些典型的运行场景?
常识图谱在泛滥畛域展现其共同价值,其普遍运行于金融、医疗、默认制作等多个行业,推进产业默认化更新。
在金融畛域,常识图谱关键运行于反洗钱与反恐惧融资,经过构建复杂相关网络,识别潜在的合法资金流动,优化金融危险防控才干。
同时,它在团体信誉评价与危险控制中施展关键作用,经过对用户信誉数据的深度开掘,精准评价信誉危险,有效降落金融欺诈危险。
此外,企业危险识别、控制与治理雷同得益于常识图谱的弱小配置,它能有效识别企业内外部危险点,提高危险治理效率。
关于系统性金融危险,常识图谱能够构建全局危险模型,成功危险的片面监控与预测。
审计上班借助常识图谱技术,能更准确地识别潜在疑问,优化审计效率与准确性。
在证券剖析与投资钻研中,常识图谱经过深度链接市场与公司消息,为投资者提供精准的投资决策允许。
关于保险行业,它则能经过对危险数据的深度剖析,优化保险产品设计与定价战略。
在医疗、动物医药和卫生肥壮畛域,常识图谱的运行雷同不容漠视。
基因常识图谱为生命迷信的钻研提供了有力允许,推进遗传疾病诊断与治疗的精准化。
动物医药畛域,经过构建药物、疾病与基因之间的相关网络,减速新药研发进程。
智慧医疗借助常识图谱技术,优化医疗服务的共性化与精准化,优化医疗资源调配。
公共卫生畛域,常识图谱在疫情监测与防控中展现关键作用,经过极速剖析疫情数据,提供迷信防控战略。
中医药常识图谱则在传承与翻新中施展共同价值,促成传统医学现代化。
默认制作畛域雷同受益于常识图谱,它在设计研发、品质与牢靠性工程、设施治理与保养、BOM物料清单治理、供应链治理等方面提供默认决策允许,推进制作业转型更新。
售后服务畛域,常识图谱经过构建客户与产品相关网络,成功更高效的疑问诊断与处置打算推送,优化客户满意度。
常识图谱是什么?有哪些运行价值
常识图谱 (Knowledge Graph) 是以后的钻研热点。
自从2012年Google推出自己第一版常识图谱以来,它在学术界和工业界掀起了一股热潮。
各大互联网企业在之后的短短一年内纷繁推出了自己的常识图谱产品以作为回应。
比如在国际,互联网巨头网络和网络区分推出”知心“和”知立方”来改良其搜查品质。
那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 常识图谱可以有哪方面的运行呢?
目录1. 什么是常识图谱?2. 常识图谱的示意3. 常识图谱的存储4. 运行5. 应战6. 结语
1. 什么是常识图谱?
常识图谱实质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。
在常识图谱里,每个节点示意理想环球中存在的“实体”,每条边为实体与实体之间的“相关”。
常识图谱是相关的最有效的示意方式。
深刻地讲,常识图谱就是把一切不同种类的消息(Heterogeneous Information)衔接在一同而失掉的一个相关网络。
常识图谱提供了从“相关”的角度去剖析疑问的才干。
常识图谱这个概念最早由Google提出,关键是用来优化现有的搜查引擎。
不同于基于关键词搜查的传统搜查引擎,常识图谱可用来更好地查问复杂的关联消息,从语义层面了解用户用意,改良搜查品质。
比如在Google的搜查框里输入Bill Gates的时刻,搜查结果页面的右侧还会产生Bill Gates相关的消息比如出世年月,家庭状况等等。
另外,关于稍微复杂的搜查语句比如 ”Who is the wife of Bill Gates“,Google能准确前往他的妻子Melinda Gates。
这就说明搜查引擎经过常识图谱真歪了解了用户的用意。
上方提到的常识图谱都是属于比拟普遍的范围,在通用畛域里处置搜查引擎优化和问答系统(Question-Answering)等方面的疑问。
接上去咱们看一下特定畛域里的 (Domain-Specific) 常识图谱示意方式和运行,这也是工业界比拟关心的话题。
2. 常识图谱的示意
假定咱们用常识图谱来形容一个理想(Fact) - “张三是李四的父亲”。
这里的实体是张三和李四,相关是“父亲”(is_father_of)。
当然,张三和李四也或许会跟其他人存在着某种类型的相关(临时不思考)。
当咱们把电话号码也作为节点参与到常识图谱以后(电话号码也是实体),人和电话之间也可以定义一种相关叫 has_phone,就是说某个电话号码是属于某团体。
上方的图就展现了这两种不同的相关。
另外,咱们可以把期间作为属性(Property)减少到 has_phone 相关里来示意放开电话号码的期间。
这种属性不只可以加到相关里,还可以加到实体当中,当咱们把一切这些消息作为相关或许实体的属性减少后,所失掉的图谱称之为属性图 (Property Graph)。
属性图和传统的RDF格局都可以作为常识图谱的示意和存储方式,但二者还是有区别的,这将在前面章节做方便说明。
3. 常识图谱的存储
常识图谱是基于图的数据结构,它的存储方式关键有两种方式:RDF存储格局和图数据库(Graph target=_blank>
当然,假设须要设计的常识图谱十分方便,而且查问也不会触及到1度以上的关联查问,咱们也可以选用用相关型数据存储格局来保留常识图谱。
但对那些稍微复杂的相关网络(理想生存中的实体和相关普遍都比拟复杂),常识图谱的优势还是十分清楚的。
首先,在关联查问的效率上会比传统的存储方式有清楚的提高。
当咱们触及到2,3度的关联查问,基于常识图谱的查问效率会高出几千倍甚至几百万倍。
其次,基于图的存储在设计上会十分灵敏,普通只要要部分的改动即可。
比如咱们有一个新的数据源,咱们只要要在已有的图谱上拔出就可以。
于此雷同,相关型存储方式灵敏性方面比拟差,它一切的Schema都是提早定义好的,假设后续要扭转,它的代价是十分高的。
最后,把实体和相关存储在图数据结构是一种合乎整个故事逻辑的最好的方式。
4. 运行
在本文中,咱们关键探讨常识图谱在互联网金融行业中的运行。
当然,很多运行场景和想法都可以加长到其余的各行各业。
这里提到的运行场景只是冰山一角, 在很多其余的运行上,常识图谱依然可以施展它潜在的价值, 咱们在后续的文章中会继续探讨。
反欺诈
反欺诈是风控中十分关键的一道环节。
基于大数据的反欺诈的难点在于如何把不同起源的数据(结构化,非结构)整合在一同,并构建反欺诈引擎,从而有效地识别出欺诈案件(比如身份造假,集团欺诈,代办包装等)。
而且不少欺诈案件会触及到复杂的相关网络,这也给欺诈查看带来了新的应战。
常识图谱,作为相关的间接示意方式,可以很好地处置这两个疑问。
首先,常识图谱提供十分方便的方式来减少新的数据源,这一点在前面提到过。
其次,常识图谱自身就是用来示意相关的,这种直观的示意方法可以协助咱们更有效地剖析复杂相关中存在的特定的潜在危险。
反欺诈的外围是人,首先须要把与借款人相关的一切的数据源买通,并构建蕴含少数据源的常识图谱,从而整分解为一台机器可以了解的结构化的常识。
在这里,咱们不只可以整合借款人的基本消息(比如放开时填写的消息),还可以把借款人的消费记载、行为记载、网上的阅读记载等整合到整个常识图谱里,从而启动剖析和预测。
这里的一个难点是很多的数据都是从网络上失掉的非结构化数据,须要应用机器学习、自然言语处置技术把这些数据变成结构化的数据。
不分歧性验证
不分歧性验证可以用来判别一个借款人的欺诈危险,这个跟交叉验证相似。
比如借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司齐全不一样,这就成了一个危险点,须要查看人员分内的留意。
再比如,借款人说跟张三是好友相关,跟李四是父子相关。
当咱们试图把借款人的消息减少到常识图谱里的时刻,“分歧性验证”引擎会触发。
引擎首先会去读取张三和李四的相关,从而去验证这个“三角相关”能否正确。
很显然,好友的好友不是父子相关,所以存在着清楚的不分歧性。
不分歧性验证触及到常识的推理。
深刻地讲,常识的推理可以了解成“链接预测”,也就是从已有的相关图谱里推导出新的相关或链接。
比如在上方的例子,假定张三和李四是好友相关,而且张三和借款人也是好友相关,那咱们可以推理偿还款人和李四也是好友相关。
组团欺诈
相比虚伪身份的识别,组团欺诈的开掘难度更大。
这种组织在十分复杂的相关网络里暗藏着,不容易被发现。
当咱们只要把其中隐含的相关网络梳理清楚,才有或许去剖析并发现其中潜在的危险。
常识图谱,作为自然的相关网络的剖析工具,可以协助咱们更容易地去识别这种潜在的危险。
举一个方便的例子,有些组团欺诈的成员会用虚伪的身份去放开存款,但部分消息是共享的。
上方的图大略说明了这种情景。
从图中可以看出张三、李四和王五之间没有间接的相关,但经过相关网络咱们很容易看出这三者之间都共享着某一部分消息,这就让咱们马上联想到欺诈危险。
只管组团欺诈的方式泛滥,但有一点值得必需的是常识图谱肯定会比其余任何的工具提供更佳方便的剖析手腕。
意外剖析(Anomaly Detection)
意外剖析是数据开掘钻研畛域里比拟关键的课题。
咱们可以把它方便了解成从给定的数据中找出“意外”点。
在咱们的运行中,这些”意外“点或许会关联到欺诈。
既然常识图谱可以看做是一个图 (Graph),常识图谱的意外剖析也大都是基于图的结构。
因为常识图谱里的实体类型、相关类型不同,意外剖析也须要把这些额外的消息思考出来。
大少数基于图的意外剖析的计算量比拟大,可以选用做离线计算。
在咱们的运行框架中,可以把意外剖析分为两大类: 静态剖析和灵活剖析,前面会逐个讲到。
- 静态剖析
所谓的静态剖析指的是,给定一个图形结构和某个期间点,从中去发现一些意外点(比如无心外的子图)。
下图中咱们可以很清楚地看到其中五个点的相互严密度十分强,或许是一个欺诈组织。
所以针对这些意外的结构,咱们可以做出进一步的剖析。
- 灵活剖析
所谓的灵活剖析指的是剖析其结构随期间变动的趋向。
咱们的假定是,在短期间内常识图谱结构的变动不会太大,假设它的变动很大,就说明或许存在意外,须要进一步的关注。
剖析结构随期间的变动会触及到时序剖析技术和图相似性计算技术。
有兴味的读者可以去参考这方面的资料【2】。
失联客户治理
除了贷前的危险控制,常识图谱也可以在贷后施展其弱小的作用。
比如在贷后失联客户治理的疑问上,常识图谱可以协助咱们开掘出更多潜在的新的咨询人,从而提高催收的成功率。
理想中,不少借款人在借款成功后产生不还款现象,而且玩“捉迷藏”,咨询不上自己。
即使试图去咨询借款人曾经提供过的其余咨询人,但还是没有方法咨询到自己。
这就进入了所谓的“失联”形态,使得催收人员也无从下手。
那接上去的疑问是,在失联的状况下,咱们有没有方法去开掘跟借款人有相关的新的咨询人? 而且这部分人群并没有以关联咨询人的身份出如今咱们的常识图谱里。
假设咱们能够开掘出更多潜在的新的咨询人,就会大大地提高催收成功率。
举个例子,在上方的相关图中,借款人跟李四有间接的相关,但咱们却咨询不上李四。
那有没有或许经过2度相关的剖析,预测并判别哪些李四的咨询人或许会心识借款人。
这就触及到图谱结构的剖析。
默认搜查及可视化展现
基于常识图谱,咱们也可以提供默认搜查和数据可视化的服务。
默认搜查的配置相似于常识图谱在Google, Baidu上的运行。
也就是说,关于每一个搜查的关键词,咱们可以经过常识图谱来前往更丰盛,更片面的消息。
比如搜查一团体的身份证号,咱们的默认搜查引擎可以前往与这团体相关的一切历史借款记载、咨询人消息、行为特色和每一个实体的标签(比如黑名单,同业等)。
另外,可视化的好处显而易见,经过可视化把复杂的消息以十分直观的方式出现出来, 使得咱们对暗藏消息的前因结果了如指掌。
精准营销
“A knowledge graph allows you to take core information about your customer—their name, where they reside, how to contact them—and relate it to who else they know, how they interact on the web, and more”-- Michele Goetz, a Principal Analyst at Forrester Research
一个痴呆的企业可以比它的竞争对手以更为有效的方式去开掘其潜在的客户。
在互联网时代,营销手腕多种多样,但不论有多少种方式,都离不开一个外围 - 剖析用户和了解用户。
常识图谱可以联合多种数据源去剖析实体之间的相关,从而对用户的行为有更好的了解。
比如一个公司的市场经理用常识图谱来剖析用户之间的相关,去发现一个组织的共同喜好,从而可以有针对性的对某一类人群制订营销战略。
只要咱们能更好的、更深化的(Deep understanding)了解用户的需求,咱们才干更好地去做营销。
5. 应战
常识图谱在工业界还没有构成大规模的运行。
即使有部分企业试图往这个方向开展,但很多仍处于调研阶段。
关键的要素是很多企业对常识图谱并不了解,或许了解不深。
但有一点可以必需的是,常识图谱在未来几年内必将成为工业界的抢手工具,这也是从目前的趋向中很容易预测到的。
当然,常识图谱毕竟是一个比拟新的工具,所以在实践运行中肯定会触及到或多或少的应战。
数据的噪声
首先,数据中存在着很多的噪声。
即使是曾经存在库里的数据,咱们也不能保障它有100%的准确性。
在这里关键从两个方面说起。
第一,目前积攒的数据自身有失误,所以这部分失误数据须要纠正。
最方便的纠正方法就是做离线的不分歧性验证,这点在前面提过。
第二, 数据的冗余。
比如借款人张三填写公司名字为”普惠“,借款人李四填写的名字为”普惠金融“,借款人王五则填写成”普惠金融消息服务有限公司“。
只管这三团体都附属于一家公司,但因为他们填写的名字不同,计算机则会以为他们三个是来自不同的公司。
那接上去的疑问是,怎样从海量的数据中找出这些存在歧义的名字并将它们兼并成一个名字? 这就触及到自然言语处置中的”消歧剖析”技术。
非结构化数据处置才干
在大数据时代,很少数据都是未经处置过的非结构化数据,比如文本、图片、音频、视频等。
特意在互联网金融行业里,咱们往往会面对少量的文本数据。
怎样从这些非结构化数据里提取出有价值的消息是一件十分有应战性的义务,这对把握的机器学习,数据开掘,自然言语处置才干提出了更高的门槛。
常识推理
推理才干是人类默认的关键特色,使得咱们可以从已有的常识中发现隐含的常识, 普通的推理往往须要一些规定的允许【3】。
例如“好友”的“好友”,可以推理出“好友”相关,“父亲”的“父亲”可以推理出“祖父”的相关。
再比如张三的好友很多也是李四的好友,那咱们可以推测张三和李四也很有或许是好友相关。
当然,这里会触及到概率的疑问。
当消息量特意多的时刻,怎样把这些消息(side information)有效地与推理算法联合在一同才是最关键的。
罕用的推理算法包括基于逻辑(Logic) 的推理和基于散布式示意方法(Distributed Representation)的推理。
随着深度学习在人工默认畛域的位置变得越来越关键,基于散布式示意方法的推理也成为目前钻研的热点。
假设有兴味可以参考一下这方面目前的上班停顿【4,5,6,7】。
大数据、小样本、构建有效的生态闭环是关键
只管如今能失掉的数据量十分宏大,咱们依然面临着小样本疑问,也就是样本数量少。
假定咱们须要搭建一个基于机器学习的反欺诈评分系统,咱们首先须要一些欺诈样本。
但实践上,咱们能拿到的欺诈样本数量不多,即使有几百万个存款放开,最后被咱们标志为欺诈的样本很或许也就几万个而已。
这对机器学习的建模提出了更高的应战。
每一个欺诈样本咱们都是以很高昂的“代价”失掉的。
随着期间的推移,咱们肯定会搜集到更多的样本,但样本的增长空间还是有局限的。
这有区别于传统的机器学习系统,比如图像识别,不难拿到好几十万甚至几百万的样本。
在这种小样本条件下,构建有效的生态闭环尤其的关键。
所谓的生态闭环,指的是构建有效的自反应系统使其能够实时地反应给咱们的模型,并使得模型始终地自优化从而优化准确率。
为了搭建这种自学习系统,咱们不只要完善已有的数据流系统,而且要深化到各个业务线,并对相应的流程启动优化。
这也是整个反欺诈环节必要的环节,咱们要知道整个环节都充溢着博弈。
所以咱们须要始终地经过反应信号来调整咱们的战略。
6. 结语
常识图谱在学术界和工业界遭到越来越多的关注。
除了本文中所提到的运行,常识图谱还可以运行在权限治理,人力资源治理等不同的畛域。
在后续的文章中会具体地讲到这方面的运行。
参考文献
【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.
【2】User Behavior Tutorial
【3】刘知远 常识图谱——机器大脑中的常识库 第二章 常识图谱——机器大脑中的常识库
【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).
【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).
【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).
文章评论