问答系统引见 (问答系统引见怎么设置)
本文目录导航:
问答系统引见
这是我的第一篇技术博客,也是对近期学习的问答系统启动一个小结,繁难回忆所学。
文章不免有失误之处,欢迎大家批判斧正,不胜感谢。
上方将从两个方面对问答系统启动小结: 一、经常出现的问答系统种类及引见 二、问答系统中的罕用技术 1.依据疑问所属的常识畛域来分类: (1) 开明域闲谈性。
举例:微软小冰 (2)面向FAQ和义务型。
举例:京东JIMI、苹果Siri (3)限定域常识型。
举例:左手医生(问答模型、消息检索) 2.依据答案生成阶段的技术分类: (1)检索式(2)生成式 3.依据答案起源分类: (1)基于常识图谱问答系统 (2)机器浏览了解的问答系统 (3)基于问答对的问答系统 定义:给定人造言语处置疑问,经过对疑问启动语义了解和解析,进而应用常识库启动查问、推理得出答案。
对理想性问答义务而言(如政策疑问)这种做法依赖于常识图谱,准确率比拟高。
要求常识图谱是比拟大规模的,由于KB-QA不可给出在常识图谱之外的答案。
上方给出经常出现分类:(1)基于符号示意的KB-QA(传统的语义解析方法)(2)基于向量示意的KB-QA(常识示意学习的方法) 评价规范:召回率(Recall)、准确率(Precision)、F1 罕用数据集:WebQuestion、SimpleQuestion、NLPCC KBQA数据集(中文) (1)基于符号示意的KB-QA(传统的语义解析方法) 定义:该方法是一种偏言语学的方法,主体思维是将人造言语转化为一系列方式化的逻辑方式,经过对逻辑方式启动自底向上的解析,失掉一种可以表白整个疑问语义的逻辑方式,经过相应的查问语句在常识库中启动查问,从而得出答案。
语义解析传统方法:疑问->短语检测->资源映射->语义组合->逻辑表白式 语义解析目前普通做法:建图->主题词链接->确定外围推导链->参与解放和聚合函数 将语义解析简化为查问图生成,将其表述为具备分阶段形态和举措的搜查疑问。
(2)基于向量示意的KB-QA(基于示意学习的方法) 定义:把常识库问答看做一个语义婚配环节。
经过示意学习常识库以及用户疑问的语义示意,失掉低维空间的数值向量,再经过数值计算,间接婚配与用户问句语义最相似的答案。
即问答义务就可以看成问句语义向量与常识库中实体、边的语义向量相似度计算的环节。
随着深度学习的开展,基于示意学习的常识库问答取得了较好的效果。
普通做法: 疑问和答案映射向量->向量婚配->计算疑问-答案score->提升疑问->候选答案选用 具体环节: 疑问和答案映射向量: 如何学习疑问向量:把疑问用LSTM启动建模 如何学习答案向量:答案不能繁难映射成词向量,普通是应用到答案实体,答案类型,答案门路,答案相关,答案高低文消息。
区分和问句向量做相似度计算,最终的相似度为几种相似度之和。
代表性的论文 [1]Dong, ACL. Question answering over freebase with multi-column convolutional neural networks.2015提出Multi-column CNN,在答案端参与了更多消息,答案类型、答案门路以及答案周围的实体和相关三种特色向量区分和问句向量做相似度计算,最终的相似度为三种相似度之和。
向量婚配、计算疑问-答案score:把这些特色区分映射成不同的向量,作为答案的其中一个向量(而不是间接拼接起来),最后用这些特色向量依次和疑问做婚配,把score加起来作为总的score。
提升疑问、候选答案选用:普通用Margin Loss,极大化疑问对正确答案的score,同时极小化疑问对失误答案的score。
当模型训练成功后,经过score启动挑选,取最高分的作为最终答案。
早期方法经常使用记忆网络来做,论文:Bordes, arXiv. Large-scale simple question answering with memory networks.2015.首先经过Input模块来处置疑问,参与常识库消息,将三元组经过输入模块变换为一条一条的记忆向量,再经过婚配主语取得候选记忆,启动cos婚配来失掉最终记忆,将最终记忆中的宾语输入作为答案。
在WebQuestions上失掉了42.4的F1-score,在SimpleQuestions上失掉了63.9的Accuracy。
接着,又有很多位学者提出了其余基于常识示意学习的方法。
其中论文[Xie.2018]提出一种基于深度学习的主题实体抽取模型,结合了问句单词级别和字符级别的嵌入示意来学习疑问的序列示意,并应用双向LSTM对单词序列编码,最后经常使用CNN网络依据单词的高低文消息预测单词能否为主题词。
在答案选用部分,文章提出一种基于自留意力机制的深度语义示意模型。
经常使用双向LSTM和CNN网络来构建深度语义模型,并提出一种基于部分和全局高低文的自留意力机制用于计算单词的留意力权重。
思考语义示意学习和实体抽取义务之间的具备相互辅佐作用,文章提出深度融合模型,将基于自留意力机制的深度语义示意模型与主题实体抽取模型结合,用多义务学习的方式启动联结训练。
在NLPCC-ICCPOL 2016数据集上失掉了83.45的F1-score。
往年,Huang, WSDM. Knowledge graph embedding based question answering.2019 提出KEQA模型,不同于以往的间接计算问句和答案语义相似度的方法,本文尝试经过相关和实体学习模型从问句区分重构出实体和相关的常识示意,并进一步重构出三元组的常识示意,最终答案为常识库中与重构三元组最凑近的三元组。
同时文章也评价了不同的常识示意学习方法TransE,TransH, TransR对KEQA模型精度的影响。
1)基于符号的方法,缺陷是须要少量的人工规定,构建难度相对较大。
好处是经过规定可以回答愈加复杂的疑问,有较强的可解释性. 2)基于向量的方法,缺陷是目前只能回答繁难疑问,可解释性差。
好处是不须要人工规定,构建难度相对较小。
1)复杂问句,目前End2End的模型只能处置繁难问答。
2)多源异构常识库问答。
关于开明域问答,繁多的常识库不能齐全回答一切疑问。
3)训练语料,常识库中有实体和相关,除此之外还或许无形容实体的文本消息,或容许以结合结构化常识和非结构化文本。
4)对话中的人造言语方式回复。
传统的智能问答都是驳回一问一答的方式。
但是在很多场景下,须要提问者和系统启动多轮对话交互,成功问答环节。
这时,须要系统前往用户的答案不再只是繁多实体、概念、相关的方式,而是须要是以人造言语的方式前往答案。
这就须要智能生成人造言语的回复。
现有方法多应用 sequence-to-sequence 模型启动人造言语生成,在这一环节中,如何与常识库相结合,将常识库问答的答案参与人造言语回复中,仍是亟待处置的疑问。
机器浏览了解在 NLP 畛域近年来备受关注,自 2016 年 EMNLP 最佳数据集论文 SQuAD 宣布后,各大企业院校都参与评测行列。
应用机器浏览了解技术启动问答即是对非结构化文章启动浏览了解失掉答案,可以分红婚配式QA,抽取式QA和生成式QA,目前绝大部分是抽取式QA。
浏览了解花招很多,但是基本框架差异不大。
SQuAD(斯坦福问答数据集):这是一个浏览了解数据集,由众包人员基于一系列维基百科文章的提问和对应的答案导致,其中每个疑问的答案是相关文章中的文本片段或区间。
SQuAD 一共有 107,785 个疑问,以及配套的 536 篇文章。
(1)婚配式QA 给定文章、疑问和一个候选答案集(普通是实体或许单词),从候选答案当选一个score最高的作为答案。
这种方式比拟像选用题型,曾经基本上没人做了。
(2)抽取式 QA让用户输入若干篇非结构化文本及若干个疑问,机器智能在浏览了解的基础上,在文本中智能寻觅答案来回答用户的疑问。
抽取式 QA 的某个疑问的答案必需出如今某篇文章中。
抽取式 QA 的经典数据集是 SQuAD。
(3)生成式QA 目前只要MSRA的MS MARCO数据集,针对这个数据集,答案方式是这样的: 1)答案齐全在某篇原文 2)答案区分出如今多篇文章中 3)答案一部分出如今原文,一部分出如今疑问中 4)答案的一部分出如今原文,另一部分是生成的新词 5)答案齐全不在原文发生(Yes / No 类型) 随着互联网技术的成熟和遍及, 网络上发生了常问疑问(frequent asked questions, FAQ)数据, 特意是在 2005 年末以来少量 的社区问答(community based question answering, CQA)数据(例如 Yahoo!Answer)出如今网络上, 即有了少量的疑问答案对数据, 问答系统进入了开明畛域、基于疑问答案对时间。
普经环节:疑问剖析 ->消息检索->答案抽取 疑问剖析阶段:和基于自在文本的问答系统的疑问剖析部分基本一样, 不过还多了几个不同的钻研点: (1)疑问主主观的判别 (2)疑问的紧急性(理论在CQA数据中) 消息检索阶段:该阶段指标是如何依据疑问的剖析结果去增加答案 或许存在的范围,其中存在两个关键疑问: (1)检索模型(找到和疑问相似的疑问) (2)两个疑问相似性判别(前往答案或前往相似疑问列表) 答案抽取部分:在答案抽取部分, 由于疑问答案对曾经有了答案, 答案抽取最关键的上班就是判别答案的品质.钻研怎样从疑问的泛滥答案当选用一个最好的答案. 上方网址给出了一些论文和近期钻研成绩:参考文献: [1] parsing on freebase from question-answer pairs.2013 [2] Parsing via Staged Query Graph Generation:Question Answering with Knowledge Base.2015 [3]Dong, ACL. Question answering over freebase with multi-column convolutional neural networks.2015 [4]Hao, ACL. An end-to-end model for question answering over knowledge base with cross-attention combining global knowledge. [5]Bordes, arXiv. Large-scale simple question answering with memory networks.2015 [6]Huang, WSDM. Knowledge graph embedding based question answering.2019 [8]Susht.知乎.一份关于问答系统的小结.2018
李维团体简介
李维的生涯历程始于1987年,那时他在中国社会迷信院言语钻研所担任助理钻研员,专一于外汉机器翻译、人造言语处置和中文消息处置的钻研。
由于他的突出奉献,他曾被破格提名升职初级职称。
1988年至1991年,他在高立软件公司担任初级工程师,关键担任开发和调试GLMT机器语法规定,设计和成功系统的语义模块背景常识库,以及培训和指点团队开发大型机器翻译词典。
他的上班推进了GLMT技术的商业化,最终转化为香港韦易达公司的袖珍电子词典产品,并在1992年经过了多项国度级鉴定和奖项,包括北京市科技提高奖和国内博览会奖项。
从1997年到2006年,李维在Cymfony公司担任主钻研员和人造言语处置副总裁,时期他主导了18项美国政府SBIR名目的研发,特意是在InfoXtract软件系列中的人造言语处置和消息抽取技术。
他开发的Brand Dashboard和Digital Consumer Insight软件,能够实时剖析少量媒体报道,为大企业提供了高效的品牌治理和市场洞察。
2006年至今,他更是升职为首席计算言语学家和架构师,专一于设计新一代搜查引擎,这款平台被泛滥财产500强企业驳回,以商业情报搜查为主,其价值被证实逾越了其余搜查引擎和工具。
他的上班成绩在《财产》、《华尔街日报》等媒体上屡次被报道,Cymfony还因其在SBIR名目中的出色体现,取得了多项荣誉提名,包括2002年全美小企业最优合同名目年度奖的提名。
(Livius,Titus,公元前59~公元17),全名提图斯·李维,古罗马历史学家。
生于意大利北部的帕塔维乌姆(今帕多瓦),卒于帕塔维翁。
其家世和父母不得而知,听说出世于贵族,早年受过良好的传统教育。
他学习了文学、史学、修辞学、演说术等,是罗马共和前期学识渊博、简直一无所知的大学识家。
后移居罗马,与屋大维过从甚密。
此时屋大维曾经战败安东尼,罗马形势复原稳固,李维奉命传授屋大维的继孙克劳狄,即起初的皇帝。
常识库和常识图谱区别?
跟你说说常识图谱和传统常识库与相关数据库的区别吧。
常识图谱、传统常识库和数据库各自尤其特点,它们之间的区别关键在语义层和数据层上蕴含消息的多少而发生必定的不同。
常识图谱须要成功语义推理等义务,并且还须要提供丰盛的实例数据来成功关联检索义务,因此,同时蕴含语义常识和丰盛的实例数据。
而相关型数据库关键成功数据检索义务,只含有丰盛的数据,传统常识库关键为了成功推理义务,含有丰盛的语义常识,也就是概念常识及其之间的关联相关,有时也含有大批的实例数据。
这三者之间最关键的区别和咨询在于:常识图谱是在传统常识库的基础上开展而来的,但更器重其中的实例数据。
常识图谱不可代替数据库,大规模图谱处置需借助数据库技术。
常识图谱蕴含语义消息,可启动必定的推理,且方式更灵敏,可裁减性更好。
文章评论