首页 SEO技术正文

transformer模型中的多头留意力机制的长处是什么? (transferwise)

SEO技术 2024-10-07 38

本文目录导航：

transformer模型中的"多头留意力机制"的长处是什么?
Reformer详解
Transformer的9种变体概览

transformer模型中的"多头留意力机制"的长处是什么?

1. Transformer模型的外围是留意力机制（Attention Mechanism），它在处置长距离依赖方面比循环神经网络（RNN）和卷积神经网络（CNN）更有效。

2. 留意力机制的引入是为了处置神经网络在处置少量消息时计算才干有限的疑问，以及优化算法的限度。

它准许模型有选用性地关注输入消息中的关键部分，从而提高效率和表白才干。

3. 留意力机制可以分为聚焦式（focus）和清楚性（saliency-based）两类。

在深度学习畛域，理论指的是聚焦式留意力，它是一种自上而下的无看法的留意力，即被动留意。

4. 留意力机制的计算流程包括消息输入、计算留意力散布α、依据留意力散布α 来计算输入消息的加权平均。

其中，soft attention 机制准许模型在给定查问q时，对一切或者的键值对启动加权求和，而硬留意力（hard attention）则选用最高概率或随机采样的键值对。

5. 留意力机制的一些变种包括键值对留意力、多头留意力等。

多头留意力准许模型并行地计算多个查问Q，以取得输入消息的不同方面，而后将结果拼接起来。

6. Transformer模型由多个留意力机制组成，包括编码器（Encoder）和解码器（Decoder）。

编码器用于处置输入序列，解码器用于生成输入序列。

在解码器中，有一种不凡的留意力机制——Encoder-Decoder attention，它准许解码器在生成输入时参考编码器的所有输入。

7. 在Transformer中，自留意力（self-attention）机制用于在编码器和解码器中建设长距离依赖相关。

自留意力机制的计算环节触及多头留意力，其中每个头计算一个留意力得分，而后将这些得分加权求和以生成最终的输入。

8. Transformer在GPT和BERT等模型中的运行有所不同。

GPT经常使用Transformer Decoder部分来训练单向言语模型，而BERT经常使用Transformer Encoder并在其基础上参与了Masked操作来训练双向言语模型。

以上内容改写后，愈加准确地形容了留意力机制和Transformer模型的原理及其在不同模型中的运行。

Reformer详解

为了应答二次复杂度造成处置长序列疑问的应战，作者提出了一系列技术以优化Transformer的效率。

理论，Transformer的效率受限于参数量大、内存消耗高以及训练语料库宏大的疑问。

但是，作者经过深化剖析发现，实践内存需求或者并不如预期般宏大，因此须要寻觅其余优化路径。

作者首先提出，关于一个典型的Transformer层，虽然参数量为0.5B，内存需求仅需2GB，而处置64K个1024维的token激活值，当批次大小设定为8时，所需内存也是2GB，与模型训练所需的17GB语料库存储相婚配。

这标明在单个机器上启动微调是可行的，但疏忽了几个关键起因。

为处置这些疑问，作者驳回了部分敏感哈希（LSH）技术，对Transformer启动了优化。

在传统的Transformer中，Q、K、V区分由输入特色向量经过不同的投影层获取。

但是，LSH关注的模型中，Q和K驳回相反的投影层。

试验标明，这样的参数优化并未影响模型的性能。

留意力计算的重要复杂度起源于公式中的softmax操作。

softmax的作用在于加大大的值、增加小的值，造成重要由最大元素组成。

因此，关于每个查问，只需关注键中与该查问最凑近的子集。

例如，在64K长度的K中，每个查问仅须要思考32或64个最凑近的键子集。

接上去，作者讨论了如何极速在多个值中找到最凑近的子集的疑问，传统两两对比方法无法行，LSH经过部分敏感哈希来减速检索。

不同于惯例哈希算法旨在增加抵触极速成功增删改查，LSH应用抵触减速检索，成果清楚。

直观地说，假设哈希函数关于“左近”点的碰撞概率高于“相距很远”的点，则其是部分敏感的。

LSH的基本思维相似于一种空间域转换，假定在原有的数据空间中，相似的向量经过哈希函数转换后依然具备很高的相似度；反之，不相似的向量转换后应不具备相似性。

关于文档相似度计算等实例，作者经过k-shingling和最小哈希方法启动引见。

经过k-shingling将文本转换为稠密向量，而后经常使用最小哈希方法，将文本转换为词表对应的01向量示意。

最终获取一个汇合，每个元素是一个向量，代表一个文本，便于启动相似度计算。

LSH方法在实践运行中展现出高效性，作者经常使用的LSH并非最小哈希函数。

实践运行中，只需求左近的向量以高概率获取相反的哈希，并且哈希桶的大小以高概率相似。

经过球上随机投影成功这一指标，确保了在特定条件下，相反bucket内的元素具备较高的相关性。

LSH留意力优化了Transformer的留意力机制，经过限度关注的汇合仅在相反的哈希桶内，提高了计算效率。

在批处置数据时，经常使用了share-QK attention确保了q和k的一致，防止了q与自身关注，从而坚持了模型性能。

此外，经过参与chunk操作，优化了bucket大小的不平均性，提高了批次操作的效率。

多轮LSH方法进一步降落了相似的q被分到不同桶内的概率，经过多重哈希降落出现概率，成功了遮盖配置。

关于训练自回归文本生成等场景，经过与位置索引关联，经常使用相反的陈列对位置索引启动从新排序，而后经常使用比拟操作来计算掩码，成功了有效的遮盖。

全体而言，Reformer技术成功降落了Transformer在内存上的复杂度，尤其处置了显存疑问。

虽然在期间复杂度上存在潜在差距，特意是因为在计算留意力时须要对数据启动排序、非延续读取等疑问，Reformer展现了在期间换空间战略上的有效运行，为处置长序列疑问提供了高效处置打算。

Transformer的9种变体概览

本文概览了Transformer的九种变体，旨在深化了解不同变体如何在原有基础上启动翻新与优化，以处置特定的NLP义务或优化性能。

首先，咱们来引见自留意力(Self-Attention)的概念。

自留意力是神经网络中的一种机制，准许模型在生成预测时有选用性地关注数据集的特定部分。

它的外围是经过学习权重来量化留意力，理论输入为一个加权平均值，而自留意力则应用同一样本内的消息启动预测，这在概念上相似于非部分操作。

自留意力的另一个关键个性是置换不变性，象征着它是对汇合操作的，不受顺序变动的影响。

接上去，让咱们看看多头自留意力(Multi-Head Self-Attention)。

这是Transformer的外围组成部分，与便捷自留意力不同，它将输入拆分为多个小块，经过并行计算每个子空间的缩放点积产品，最终将一切留意力输入启动串联，从而参与模型的表白才干。

紧接着，引见经典的Transformer结构，它蕴含编码器和解码器。

编码器经过自留意力机制从高低文中提取相关消息，解码器则应用这些消息启动预测。

编码器由6个模块组成，每个模块蕴含两个子模块：一个多头自留意力和一个点对点全衔接前馈网络。

解码器结构与编码器相似，但蕴含两个多头留意子模块，并且第一个子模块被屏蔽以防止位置穿梭。

为了提供序列中的顺序消息，位置编码(Positional Encoding)是必无法少的。

它经过向Transformer中参与特定的位置消息，确保模型能了解数据的顺序，从而防止自留意力操作的置换不变性。

接上去，咱们讨论了提高自留意力跨度的战略，如Transformer-XL。

它经过两个关键改良处置了高低文宰割疑问：暗藏形态重用，准许模型在不同序列段间共享消息，扩展了自留意力的跨度；相对位置编码，经过编码相对位置相关，模型能够更好地理解序列中元素之间的相关。

为了成功更灵敏的自留意力跨度，Adaptive Attention Span战略引入了灵活调零件制。

经过学习每个留意力头在给定高低文中所需的跨度长度，模型可以更高效地处置不同长度的序列，增加计算和内存开支。

关于图像处置义务，Image Transformer驳回了部分留意力跨度战略，将留意力限度在图像的部分区域，以并行处置更多图像元素并管理或者性损失。

Sparse Transformers则经过稠密矩阵合成降落了计算和内存的消耗，准许构建上百层的密集留意力网络，实用于更长序列的处置。

Reformer模型经过引入部分敏感哈希(Locality-Sensitive Hashing)和可逆残差网络(Reversible Residual Network)等技术，进一步优化了Transformer的计算效率与内存经常使用。

最后，Universal Transformer联合了Transformer的全局接纳域与RNN的学习诱导偏置，经过自顺应计算期间灵活调整循环步数，提供了一种既思考全局消息又支持递归学习的模型结构。

综上所述，这些Transformer变体在自留意力机制的基础上启动了翻新与优化，旨在处置特定疑问、提高性能或扩展运行畛域，为NLP义务提供了更为灵敏、高效和准确的处置打算。