首页 SEO技术 正文

亚马逊云创新 仅需要文本匹配就能实现语义搜索 神经稀疏检索 (亚马逊云科技联合创新中心)

SEO技术 2025-01-11 23

本文目录导航:

亚马逊云创新「神经稀疏检索」:仅需要文本匹配就能实现语义搜索

随着AI技术的蓬勃发展,语义检索已成为热门话题。

近年来,大模型的热度空前,驱动了语义检索领域的不断创新。

在RAG应用中,检索结果的相关性对于AI生成结果的质量至关重要。

目前,语义检索的实现多依靠语言模型将文本编码为高维向量,并借助k-NN搜索技术实现。

然而,VectorDB和语言模型部署成本高昂,成为行业痛点。

在这一背景下,亚马逊云科技与亚马逊上海人工智能研究院宣布在OpenSearch NeuralSearch插件中推出“Neural Sparse”功能,针对传统语义检索所面临的问题提供了创新解决方案,主要针对相关性增强、资源优化及检索速度提升。

通过结合稀疏编码与原生Lucene索引,该技术在存储效率和执行效率上优于当前主流方法。

稀疏编码通过生成一组token与权重组合,与传统文本匹配方法的term-vector形成互补,从而实现在不牺牲性能的前提下,以更轻便、占用资源较少的方式存储文档信息。

这一改进在未知数据集上的适应性和性能表现突出,尤其是在零知识测试中,稀疏编码相较于稠密编码在相关性方面的优势明显,特别是在处理陌生文本表述和强调关键词匹配方面。

亚马逊在速度表现上也进行了优化。

通过仅文档编码模式与两段式搜索策略,不仅在存储和检索效率上实现了与BM25相近的速度性能,而且在提高系统响应速度上显著提升。

特别是在仅文档编码模式下,性能表现接近BM25,在使用两段式搜索策略时,相较于使用稠密编码方法和BM25,其速度提高了5至8倍,极大地增强了Neural Sparse的检索效率。

为简化用户部署过程,亚马逊提供了一系列步骤指南,指导用户在OpenSearch集群中快速搭建并使用“Neural Sparse”语义检索应用。

从配置本地集群、注册编码器模型、设置预处理器、建立索引到文档导入和搜索,每一步都详细指导,确保用户能够轻松上手。

综上所述,亚马逊云科技与亚马逊上海人工智能研究院的联合创新,在语义检索领域展示了前沿技术的潜力,通过“Neural Sparse”技术在性能优化、资源利用和检索速度上实现了显著突破。

这一创新不仅解决传统检索技术面临的成本与性能瓶颈,更开辟了语义检索在实际应用中的新途径。

亚马逊云创新 仅需要文本匹配就能实现语义搜索 神经稀疏检索 (亚马逊云科技联合创新中心)

Easysearch:语义搜索、知识图和向量数据库概述

什么是语义搜索?语义搜索是一种运用自然语言处理算法,理解单词和短语的含义以及上下文,以提供更精确搜索结果的搜索技术。

其目的是更深入地理解用户的意图和查询内容,不仅基于关键词匹配,还通过分析查询的语义和上下文,提供更精确和相关的搜索结果。

与传统的关键词搜索相比,语义搜索的优点在于它能更好地满足用户的意图,尤其是对于复杂的查询和问题。

它能够理解查询的上下文,处理模糊或不完整的查询,并提供更相关和有用的搜索结果。

例如,当用户搜索最近的餐厅时,语义搜索可以根据用户的位置信息和上下文,提供附近的餐厅列表,而不仅仅是简单地匹配关键词最近和餐厅。

语义搜索的历史语义搜索的概念可以追溯到计算机科学的早期,在20世纪50年代和60年代就有人尝试开发自然语言处理系统。

然而,直到20世纪90年代和21世纪初,语义搜索领域才取得了重大进展,这得益于机器学习和人工智能的进步。

语义搜索最早的例子之一是Douglas Lenat在1984年创建的Cyc项目。

该项目旨在建立一个全面的常识知识本体或知识库,用于理解自然语言查询。

尽管Cyc项目面临诸多挑战,最终没有实现其目标,但它为未来语义搜索的研究奠定了基础。

20世纪90年代末,Ask Jeeves(现称为)等搜索引擎开始尝试自然语言查询和语义搜索技术。

这些早期的努力受到当时技术的限制,但它们展示了更复杂的搜索算法的潜力。

21世纪初,Web本体语言(OWL)的发展提供了一种以机器可读格式表示知识和关系的标准化方法,使得开发语义搜索算法变得更加容易。

2008年被微软收购的Powerset和2007年推出的Hakia等公司开始使用语义搜索技术来提供更相关的搜索结果。

如今,许多搜索引擎和公司正在使用语义搜索来提高搜索结果的准确性和相关性。

其中包括于2012年推出知识图谱的谷歌,以及使用语义搜索为其Alexa虚拟助手提供支持的亚马逊。

随着人工智能领域的不断发展,语义搜索可能会变得更加复杂且适用于广泛的应用。

语义搜索和知识图谱有什么关系?语义搜索和知识图密切相关,因为两者都涉及使用语义技术来改进搜索结果。

知识图是一种用于组织和表示知识的图形结构,通过节点和边的连接展示实体和关系之间的语义关联性。

例如,知识图可能包含有关特定公司的信息,包括其位置、产品和员工以及这些实体之间的关系。

另一方面,语义搜索是一种使用自然语言处理和机器学习来更好地理解搜索查询中单词和短语的含义的搜索技术。

语义搜索算法使用知识图和其他语义技术来分析实体和概念之间的关系,并基于此分析提供更相关的搜索结果。

换句话说,知识图谱为语义搜索提供了丰富的知识背景,帮助理解查询意图和提供准确的搜索结果。

同时,语义搜索可以帮助构建和扩展知识图谱,提高搜索的准确性和语义理解能力。

例如,谷歌的知识图使用庞大的结构化数据数据库来支持其搜索结果,并提供有关搜索结果中出现的实体(例如人物、地点和事物)的附加信息。

这使得用户更容易找到他们正在寻找的信息并探索相关的概念和实体。

向量数据库、知识图谱和语义搜索向量数据库是另一种可以与语义搜索和知识图相结合使用以改进搜索结果的技术。

它主要用于处理和分析具有向量特征的数据,如图像、音频、文本、时间序列等。

传统的关系型数据库主要用于存储结构化的数据,而向量数据库则专注于存储和处理高维向量。

它的设计目标是能够高效地进行向量相似性搜索和聚类等操作,以支持复杂的数据分析和机器学习任务。

向量数据库使用机器学习算法将数据表示为向量,向量是数据的数学表示,可用于各种计算任务,例如,向量可用于表示人、地点和事物等实体以及它们之间的关系。

通过比较这些向量,搜索算法可以识别数据本身可能无法立即显现的关系和模式。

在语义搜索和知识图的背景下,向量数据库可以通过更好地理解实体和概念之间的关系来提高搜索结果的准确性。

例如,当用户搜索“London”时,语义搜索算法可以使用知识图和向量数据库来了解用户可能指的是英国伦敦市,而不是其他同名实体。

通过使用向量数据库来表示和比较实体和概念,搜索算法可以提供更相关和更准确的搜索结果。

总体而言,向量数据库、语义搜索和知识图谱都是共同提高搜索算法的准确性和效率的技术。

通过利用这些技术,搜索引擎和其他应用程序可以更好地理解实体和概念之间的关系,从而更轻松地找到用户正在寻找的信息。

关于EasysearchINFINI Easysearch是一个分布式的近实时搜索与分析引擎,核心引擎基于开源的Apache Lucene。

Easysearch的目标是提供一个轻量级的Elasticsearch可替代版本,并继续完善和支持更多的企业级功能。

与Elasticsearch相比,Easysearch更关注在搜索业务场景的优化和继续保持其产品的简洁与易用性。

官网文档/docs/lat...下载/download

搜索语义优化1:match_phrase和match的区别

在调整召回效果的时候,使用普通match得到的召回效果中规中矩,不能说错,但总归觉得不适应比较复杂的实际情况,特别是在没有做语义分析的相关工作情况下,简单的通过中文分词->中文分词,效果上并不尽如人意。

结果上看通常是符合逻辑而不符合“人性”的,即使我们通过了一些其他方式对结果进行矫正。

而过于复杂的方式也会对性能上造成影响,相信比起一个精心计算的需要等个一两秒的“精致结果”来说,还是一个可以立刻响应的“差不多结果”会更加合适。

通过大量的query结果来看,目前的召回方式对于搜索词没有一个总体顺序的感觉,当query被分词以后,所有词的权重都是一样的。

举例一个比较奇葩的搜索关键词:“大清 银币”。

能看得到索引中有433个相关结果。

那如果把关键词反过来变成一个不伦不类的关键词呢“银币 大清”官方文档中关于match_phrase的描述 我们使用的是match_phrase来解决这个问题。

收效还是比较明显的,在AB实验中可以看到用户对于这个更新的反馈还是很不错的。

关键词出现次数究竟怎么算 关键词密度究竟怎么算 (关键词出现次数排序)
« 上一篇 2025-01-11
大气治理概念股龙头股有哪些股票 (大气治理概念股龙头股)
下一篇 » 2025-01-11

文章评论