首页二次元正文

KDD21 (kdd21会议论文)

二次元 2024-09-10 99

本文目录导航：

KDD'21 | 揭秘Facebook更新版语义搜查技术
语义搜查的概述
什么是语义搜查引擎？

KDD'21 | 揭秘Facebook更新版语义搜查技术

KDD21上，Facebook颁布了一篇对于其更新版语义搜查技术的EBR文章——Que2Search。

与淘宝搜查中的语义向量检索技术相比，Facebook的钻研更并重于在MarketPlace社交媒体电商搜查中的查问了解和商品了解，指标是优化搜查结果的相关性和召回率。

文章深化讨论了钻研动机、处置打算以及多义务学习和模型架构，如双塔结构和多模态融合。

文章亮点包括：经常使用留意力机制融合不同输入特色，设计奇妙的多义务学习义务以增强模型对查问用意的了解，以及驳回两阶段训练战略，区分处置in-batch负样本和经过课程学习逐渐提高模型功能。

模型在query tower和document tower上区分优化实时和离线计算，以平衡功能和准确性。

实验结果显示，引入XLM encoder和跨模态特色如图片向量对优化模型功能至关关键。

线上A/B测实验证了这些技术改良的有效性，尤其是向量检索和排序方面，展现了清楚的功能优化。

部署阅历分享局部，只管繁复，但蕴含了一些适用的部署战略和技巧。

浏览本文，可以深化了解Facebook在优化电商搜查体验方面的最新停顿，以及他们如何经过语义了解技术成功更精准的搜查结果。

语义搜查的概述

举例来说吧，当一个用户在搜查框中输入“孟字去掉子”时，深谙语义搜查的搜查引擎就能够判别出，用户想要找的并不是含有“孟”、“去掉子”等字眼的内容，而是想要查找与“皿”这个字相关的内容；雷同，当用户搜查“表现春天的图片”时，搜查引擎会向其出现出各种与春天相关的图片，而不只仅局限于该图片的题目能否蕴含“春天”字样。

常识库是语义搜查引擎启动推理和常识积攒的基础和关键，而Ontology则是常识库的基础。

普通来说，本体提供一组术语和概念来形容某个畛域，常识库则经常使用这些术语来表白该畛域的理想。

例如医药本体或许蕴含“白血病”、“皮肤病”等术语的定义，但它不会蕴含详细某一病人的诊断结果，而这正是常识库所要表白的内容。

比如张三患有皮肤病、李四患有皮肤病和白血病、王五患有白血病，其中的皮肤病、白血病就是本体。

而各个病症的实例（张三、李四、王五）及其病症形容就是常识库的内容。

本体和常识库的相关有几个要点：★　Ontology为常识库的树立提供一个基本的结构；★　Ontology提供一套概念和术语来形容某一畛域，并且失掉该畛域的实质的概念结构；★　常识库就运用这些术语去表白理想或许虚构环球中的正确常识。

因此，树立一个常识库的第一步就是对该畛域启动有效的Ontology剖析。

经过本体允许语义，允许人机之间的交换，从而成功机器默认，为web的开展带来了新的契机。

而本体在搜查引擎中的运行，必将对搜查引擎的易用性和效率，发生极大的改良，从而使得web用户能够更好的在浩如烟海的消息陆地中漫游。

什么是语义搜查引擎？

搜查引擎排名的基础之一，就是关键词与网页的相关性。

机器算法和人不一样的中央是人可以间接了解词的意思，文章的意思，机器和算法不能了解。

人看到苹果这两个字就知道指的是那个圆圆的，有水的挺好吃的物品，搜查引擎却不能从理性上了解。

但搜查引擎可以把握词之间的相关，这就牵扯到语义剖析。

两年前搜查引擎优化业界很热烈的议论过一阵潜在语义索引(Latent Semantic Indexing)。

由于期间比拟久，记得也不是很清楚，大略引见一下。

所谓潜在语义索引指的是，怎么经过海量文献找出词汇之间的相关。

当两个词或一组词少量出如今同一个文档中时，这些词之间就可以被以为是语义相关。

举个例子，电脑和计算机这两个词在人们写文章时经常混用，这两个词在少量的网页中同时发生，搜查引擎就会以为这两个词是极为语义相关的。

要留意的是，潜在语义索引并不依赖于言语，所以SEO和搜查引擎优化只管一个是英语，一个是中文，但这两个词少量出如今相反的网页中，只管搜查引擎还不能知道搜查引擎优化或SEO指的是什么，然而却可以从语义上把”SEO”，”搜查引擎优化”，”search engine optimization”，”SEM”等词紧紧的连在一同。

再比如苹果和橘子这两个词，也是少量出如今相反文档中，不过严密度低于同义词。

搜查引擎有没有经常使用潜在语义索引，至今没有定论，由于搜查引擎既不抵赖也不否定。

但一个理想是2002年Google买下了领有潜在语义索引专利的一家公司Allied Semantic。

这种语义剖析技术可以给咱们在搜查引擎优化上一些揭示。

网站主题的构成理论逻辑和结构适当的网站都会分红不同的频道或栏目。

在不同的频道中议论有些区别但严密相关的话题，这些话题独特构成网站的主题。

搜查引擎在把整个网站的页面收录出来后，能够依据这些主题词之间的语义相关度判别出网站的主题。

网页内容写作从两年前开局，搜查引擎排名有一个现象，搜查某个关键词，排在靠前面的网页有时甚至并不含有所搜查的关键词，这很有或许是潜在语义索引在起作用。

比如搜查电脑，排在前面的网页有或许发生一篇只提到计算机却没提到电脑。

由于搜查引擎经过语义剖析知道这两个词是严密相关的。

还有一个要留意的是，在启动网页写作的时刻，不要局限于指标关键词，应该蕴含与主关键词语义相关相近的词汇，以允许主关键词。

这在搜查结果中也有表现，有的文章只管少量发生主关键词，但缺少其余撑持词汇，排名往往不好。