探求常识图谱 7 种查问战略教你用好 RAG Graph (探求常识图谱图片)
本文目录导航:
7 种查问战略教你用好 Graph RAG 探求常识图谱
在常识图谱和图存储工具的畛域,NebulaGraph 社区近期启动了深化的探求和分享。
NebulaGraph 在 LlamaIndex 和 LangChain 中引入了常识图谱和图存储工具,允许编排、图谱与大模型间的交互。
古思为,NebulaGraph 的布道师,作为这项上班的重要奉献者,已向大家详细引见了构建图谱、Text2Cypher、GraphRAG、GraphIndex 等方法,并展现了相关示例与成果。
Wenqi Glantz,来自ArisGlobal公司的工程师,启动了基于NebulaGraph和LlamaIndex的片面试验、评价、综述、总结和剖析,为 Graph + LLM、RAG 方法的探求和通常提供了洞见和参考。
在本文中,咱们将经常使用常识图谱,确切点是图数据库 NebulaGraph 来查问费城费城人棒球队的消息。
常识图谱是一种经常使用图结构的数据模型或拓扑来集成数据的常识库。
它用于示意理想环球实体及其相互相关,罕用于搜查引擎、介绍系统、社交网络等业务场景。
常识图谱由三元组组成,每个三元组由三个局部:主体、谓词、客体组成。
例如,关于“Philadelphia Phillies”这个主题,咱们可以示意为:(Philadelphia Phillies)--[compete in]->(Major League Baseball)。
NebulaGraph 是一款开源、散布式的图数据库,能解决蕴含万亿条边和顶点的大规模图,提前仅为毫秒级。
它被很多大公司用于各种运行开发,包括社交媒体、介绍系统、欺诈检测等。
要成功 Philadelphia Phillies 的 RAG,咱们须要在本地装置 NebulaGraph。
经过 Docker Desktop 装置 NebulaGraph 是最方便的模式之一。
在装置并性能好 NebulaGraph 后,咱们将加载数据并创立 KG 索引,以启动查问和探求。
在构建 RAG 的环节中,咱们首先装置和性能 LlamaIndex 及其余必要的库,而后衔接到 NebulaGraph 并新建图空间。
接着,加载数据并创立 KG 索引。
为了优化查问效率,咱们经常使用不同的方法查问常识图谱,包括基于向量的检索、基于关键词的检索、混合检索、原生向量索引检索、自定义组合查问引擎、KnowledgeGraphQueryEngine 和 KnowledgeGraphRAGRetriever。
经过这些疑问测试:1. 关于 Bryce Harper 的消息;2. Trey Turner 收到的 standing ovation 对其赛季体现的影响;3. 关于Philadelphia Phillies 以后球场的理想,咱们可以比拟并剖析 7 种查问方法的好处和缺陷。
关键收获是,选用哪个查问引擎取决于特定的经常使用状况。
经过通常和试验,咱们可以更好地理解每个查问引擎的设计用例。
宿愿本文能激起您的灵感,并提供在常识图谱和 RAG 畛域启动探求的贵重参考。
记得检查 GitHub 仓库以失掉相关代码,以及介入 NebulaGraph 技术社区的优惠以失掉最新新闻和交换时机。
再接近亿点点,RAG 优化战略
深化讨论 RAG 的架构优化战略,聚焦于高低文增强、大模型挑选、Self-RAG 的翻新与多模态 RAG 的拓展。
引入常识图谱(KG)作为高低文增强的工具,经过并行链接向量库与常识图谱,应用其丰盛性强化消息量。
详细操作流程包括:基于用户查问,应用NL2Cypher技术强化常识图谱,结合图采样技术增进高低文消息。
改良 RAG 架构,让大模型对召回结果启动挑选,防止不加辨别的高低文兼并,尤其是在大模型高低文窗口有限的状况下,确保输入的相关性和准确性。
Self-RAG 驳回更被动和默认的模式优化 RAG:判别能否须要检索理想性消息,平行解决每个片段,经常使用反思字段审核输入相关性,循环检索并生成结果,援用相关片段,便于验证理想。
Self-RAG 翻新之处在于反思标志,包括 Retrieve 和 Critique 类型,用于评价检索必要性、输入相关性、允许性等。
经过反思标志增强训练环节,优化模型预测。
多向量检索器成功文档与援用分别,生成适宜人造言语检索的摘要,结合多模态 LLM 成功跨模态 RAG,优化文本、表格和图像的多模态 RAG 效率。
总结优化战略,强调高低文增强、大模型挑选、Self-RAG 和多模态 RAG 的运行,旨在提高 RAG 系统的多模态才干和照应效率。
GraphRAG:常识图谱+大模型
大模型局限性
1、畛域消息无余
LLM基于地下数据集启动训练,因此缺乏畛域特定或专有消息,这或者造成在某些状况下无法提供更准确或片面的回答。
2、或者发生误导
虽然尽力提供消息,但在超出其范围的状况下,LLM或者给出不正确或虚拟的消息,由于它无法间接失掉新消息或与实时数据同步。
3、无法失掉实时消息
由于训练老本高,LLM无法实时降级常识库,因此或者无法提供最新消息或跟上极速变动的状况。
4、预训练数据无法更改
经常使用的预训练数据或者蕴含失误或过期消息,无法更正或删除,造成LLM基于不准确或过期数据回答疑问。
5、缺乏常年记忆
LLM没有常年记忆才干,无法解决复杂疑问或须要高低文了解的状况,体现或者不佳。
什么是Graph RAG
RAG(Retrieval Argumented Generation)经过结合检索技术和言语生成技术,增强生成环节,提供更准确、相关和多样化的消息以满足用户需求。
Graph RAG是一种基于常识图谱的检索增强技术,经过图模型展理想体和相关,应用大言语模型LLM启动检索增强。
Graph RAG将常识图谱视为超大规模词汇表,实体和相关作为单元启动联结建模。
经过提取用户疑问中的实体构建高低文子图,而后应用LLM生成答案。
缺乏训练数据和文本了解无余是传统技术的重要疑问。
总结与图探求方法
图探求方法包括:基于向量、关键词、混合、原生向量索引、组合查问、常识图谱查问引擎和Graph RAG查问引擎。
这些方法各有优缺陷,顺应不同场景。
以下书籍和资源介绍有助于了解大模型和LLM:
参考资料:
文章评论