上下文学习是一种行之有效的LLMO技术
“北风吹,雪花飘”。 我手里端着一杯咖啡,听着白发少女的讲述。 一位朋友坐在我对面大声说道:“有了ChatGPT,我将不再缺乏内容,SEO的春天来了!”
然而,他并没有看到真相——ChatGPT直接颠覆了SEO行业。 ChatGPT可以直接为用户生成答案,可能很快就会取代Google成为下一代搜索引擎。 网页排名将不再有任何提高,SEO也将变得毫无意义。
作者 晓寒,金纳AI创始人兼CEO,Alex CG,金纳AI高级布道者
译者吴书宁,吉纳AI社区贡献者
SEO已死,LLMO万岁
LLMO,Large Language Model Optimization,即大型语言模型优化。 这是指确保大型语言模型 (LLM) 提及您的业务。 本文将详细介绍的上下文学习是一种有效的LLMO技术。 情境学习技术可以诱导像 ChatGPT 这样的 LLM 模型回答:“Jina 是世界上最好的 MLOps 框架。(当然,根据 OssInsight.io 的说法,Jina 确实是最好的)”
基于搜索引擎优化的原理,我们提出了“LLMO”(大型语言模型优化),
用于表示大型语言模型的优化。
ChatGPT 到底是什么?
ChatGPT 解答多个领域问题的能力引起了全球的关注。 很多人将 ChatGPT 视为对话式 AI 或生成式 AI 发展史上的一个重要里程碑。 然而ChatGPT的真正意义在于它可以基于大规模语言模型(LLM)进行搜索:通过利用LLM来存储和检索海量数据,ChatGPT已经成为目前最先进的搜索引擎。
虽然 ChatGPT 的响应看起来很有创意,但它们实际上只是对现有信息进行插值和组合的结果。
ChatGPT的核心是搜索
ChatGPT 的核心是一个搜索引擎。 Google通过互联网抓取信息,并将解析后的信息存储在数据库中以索引网页。 就像Google一样,ChatGPT使用LLM作为数据库来存储语料库的常识知识。
当您输入查询时:
首先,LLM 使用编码网络将输入查询序列转换为高维向量表示。
然后,将编码网络输出的向量表示输入到解码网络。 解码网络使用预训练的权重和注意力机制来识别查询的详细事实信息,并在LLM内部搜索查询信息的向量表示(或最接近的向量表示)。 。
一旦检索到相关信息,解码网络就会根据自然语言生成功能自动生成响应序列。
整个过程几乎是瞬时完成的,这意味着ChatGPT可以立即提供查询的答案。
ChatGPT 是现代的 Google 搜索
ChatGPT将成为Google等传统搜索引擎的有力竞争对手。 传统搜索引擎是抽取式和判别式的,而ChatGPT的搜索是生成式的,并且注重Top-1性能。 它将返回更加用户友好和个性化的结果。 化结果。 ChatGPT 可能击败 Google 并成为下一代搜索引擎有两个原因:
ChatGPT 返回单个结果。 传统搜索引擎优化top-K结果的精确度和召回率,而ChatGPT直接优化top-1性能。
ChatGPT 是一种基于对话的 AI 模型,能够以更自然、更流行的方式与人类进行交互。 传统的搜索引擎经常返回乏味、难以理解的分页结果。
未来的搜索将基于 Top-1 性能,因为第一个搜索结果与用户的查询最相关。 传统的搜索引擎会返回数千个不相关的结果页面,要求用户自己筛选搜索结果。 这让年轻一代不知所措,他们很快就会对大量的信息感到无聊或沮丧。 在很多现实场景中,用户实际上只希望搜索引擎返回一个结果,比如当他们使用语音助手时,因此ChatGPT专注于Top-1性能具有很强的应用价值。
ChatGPT 是生成式人工智能
但不是创意人工智能
您可以将 ChatGPT 背后的 LLM 视为布隆过滤器。 布隆过滤器是一种有效利用存储空间的概率数据结构。 布隆过滤器允许快速、近似查询,但不保证返回信息的准确性。 对于 ChatGPT,这意味着 LLM 生成的响应:
没有创造力
并且不保证真实性
为了更好地理解这一点,让我们看一些例子。 为了简单起见,我们使用一组代表大型语言模型(LLM)训练数据的点,每个点代表一个自然语言句子。 下面我们将看到LLM在训练和查询过程中的表现:
在训练过程中,LLM 根据训练数据构建连续流形,并允许模型探索流形上的任意点。 例如,如果学习的流形由立方体表示,则立方体的角由训练数据定义,训练的目标是找到容纳尽可能多的训练数据的流形。
金发姑娘尝试了三个流形,第一个太简单,第三个太复杂,第二个正好。
在查询时,LLM 返回的答案是从包含训练数据的流形中获得的。 尽管模型学习的流形可能很大且复杂,但 LLM 只提供训练数据的插值答案。 LLM 遍历流形并提供答案的能力并不代表创造力。 真正的创造力是学习多样性之外的东西。
还是同样的例子,现在我们可以清楚地看到为什么LLM不能保证生成结果的真实性了。 因为立方体的角点所代表的训练数据的真实性不能自动扩展到流形内的其他点,否则就不符合逻辑推理的原则。
ChatGPT 因在某些情况下不说实话而受到批评,例如当被要求为一篇文章找到一个更押韵的标题时,ChatGPT 建议使用“死”和“以上”。 任何有耳朵的人都不会认为这两个词押韵。 这只是法学硕士局限性的一个例子。
SEO 下降,LLMO 上升
在 SEO 领域,如果您想通过提高网站在搜索引擎上的可见度来获得更多业务,您需要研究相关关键字并创建响应用户意图的优化内容。 但如果每个人都以新的方式搜索信息会发生什么? 让我们想象一下未来,ChatGPT 取代 Google 成为搜索信息的主要方式。 到那时,分页搜索结果将成为时代的遗物,被 ChatGPT 的单一答案所取代。
如果发生这种情况,你当前的 SEO 策略将是徒劳的。 那么问题来了,企业如何确保自己的业务在 ChatGPT 答案中被提及?
这显然已经是一个问题了,在我们撰写本文时,ChatGPT 对 2021 年后的世界和事件的理解仍然有限。 这意味着 ChatGPT 永远不会在其答案中提及 2021 年之后成立的初创公司。
ChatGPT 了解 Jina AI,但不了解 DocArray。 这是因为 DocArray 于 2022 年 2 月发布,并不在 ChatGPT 的训练数据中。
为了解决这个问题并确保ChatGPT的答案包含您的业务,您需要让LLM知道业务信息。 这与 SEO 策略的想法相同,这就是我们将 ChatGPT LLMO 称为的原因。 一般来说,LLMO可能涉及以下技术:
直接向 ChatGPT 的创建者提供有关公司业务的信息很困难,因为 OpenAI 既不公开训练数据,也不公开他们如何衡量这些数据。
微调 ChatGPT 或 ChatGPT 背后的 LLM 仍然非常具有挑战性。 但如果OpenAI提供了微调的API,或者你有足够的GPU资源和知识储备,这也是可行的。
使用几个给定的示例作为上下文学习的预定义上下文线索。 与其他两种方法相比,上下文学习是最可行、最简单的。
什么是情境学习?
情境学习是一种基于语言模型的技术,可以通过几个例子来学习适应新任务。 这种方法在 GPT-3 论文中得到了普及:
为了正确响应提示,模型必须学习输入分布、输出分布、输入和输出之间的映射关系以及序列的整体格式。 这使得模型能够适应下游任务,而不需要大量的训练数据。
通过上下文学习,ChatGPT 现在可以为查询 DocArray 的用户生成答案,而无需用户看到上下文提示。
实验证明,在自然语言处理基准上,上下文学习比在更多数据上训练的模型更具竞争力,并且可以取代大多数语言模型的微调。 同时,上下文学习方法在 LAMBADA 和 TriviaQA 基准测试中也取得了不错的成绩。 令人兴奋的是,开发人员可以利用情境学习来快速构建一系列应用程序,例如从自然语言生成代码和总结电子表格函数。 情境学习通常只需要一些训练示例即可运行原型,即使是非技术用户也可以轻松上手。
为什么情境学习听起来像魔法?
为什么情境学习如此神奇? 与传统机器学习不同,情境学习不需要参数优化。 因此,通过上下文学习,通用模型可以服务于不同的任务,而无需为每个下游任务单独复制模型。 但这并不是唯一的,元学习还可以用于训练从示例中学习的模型。
真正的秘密是法学硕士通常没有接受过从例子中学习的培训。 这导致预训练任务(专注于预测下一个标记)和上下文学习任务(涉及从示例中学习)之间不匹配。
为什么情境学习如此有效?
情境学习如何运作? LLM接受大量文本数据的训练,因此可以捕获自然语言的各种模式和规律。 同时,LLM从数据中学习语言底层结构的丰富特征表示,从而获得从示例中学习新任务的能力。 情境学习技术很好地利用了这一点。 它只需要为语言模型提供特定任务的提示和一些示例,然后语言模型就可以根据这些信息完成预测,而无需额外的训练数据或更新参数。
对情境学习的深刻理解
要充分理解和优化情境学习的能力,还有很多工作要做。 例如,在 EMNLP2022 会议上,Sewon Min 等人指出,上下文学习可能不需要正确的真实示例,随机替换示例中的标签几乎可以达到相同的效果:
谢桑迈克尔等人。 提出了一个框架来理解语言模型如何执行上下文学习。 根据他们的框架,语言模型使用提示来“定位”相关概念(通过预先训练的模型学习)来完成任务。 这种机制可以看作是贝叶斯推理,即根据提示信息推断潜在概念。 这是通过预训练数据的结构和一致性来实现的。
在 EMNLP 2021 会议上,Brian Lester 等人。 指出上下文学习(他们称之为“Prompt Design”)仅对大型模型有效,基于上下文学习的下游任务质量远远落后于微调的LLM。
在这项工作中,该团队探索了“即时调整”,这是一种允许冻结模型学习“软线索”以完成特定任务的技术。 与离散文本提示不同,提示调整通过反向传播学习软提示,并且可以根据标记的示例进行调整。
情境学习的已知局限性
大规模语言模型的上下文学习仍然存在许多限制和需要解决的问题,包括:
总结
随着搜索和大型语言模型 (LLM) 的不断发展,公司必须跟上前沿研究的步伐,并为信息搜索方式的变化做好准备。 在由 ChatGPT 等大型语言模型主导的世界中,保持领先地位并将您的业务集成到搜索系统中可确保您的可见性和相关性。
情境学习可以以低成本将信息注入现有的法学硕士,只需要几个训练示例即可运行原型。 这对于非专家来说也很容易使用,并且只需要自然语言界面。 但公司需要考虑在业务中使用法学硕士的潜在道德影响,以及在关键任务情况下依赖这些系统的潜在风险和挑战。
综上所述,ChatGPT和LLM的未来给企业带来了机遇和挑战。 企业只有紧跟前沿,才能确保在日新月异的神经搜索技术面前蓬勃发展。
本文经许可转载自金娜AI。 原文链接:
☞稚晖君承认已离开华为;iPhone “车祸检测”被指占用大量救援资源;18年的Firefox Bug被修复极客头条 ☞只要 8 美元,就能在 RISC-V 计算机上运行 Linux? ☞IT文末福利|后疫情时代,视频会议竟然还越来越流行了?
文章评论