改良Transformer位置编码 位置编码 Transformer 成功最强SOTA方法!

本文目录导航:
- 【Transformer 位置编码】改良Transformer位置编码,成功最强SOTA方法!
- Transformer功能优化:运算和显存
- transformer模型中的"多头留意力机制"的长处是什么?
【Transformer 位置编码】改良Transformer位置编码,成功最强SOTA方法!
本文聚焦于改良Transformer位置编码,以成功最优SOTA方法。
自2017年Transformer架构提出后,位置编码成为钻研热点。
本文以2022年ICLR的一篇论文“Train short, Test long: Attention with linear biases enables input length extrapolation”为例,具体讨论位置编码的改良战略。
位置编码关键分为相对位置编码和相对位置编码两大类。
相对位置编码经过函数公式或可学习参数取得每个token的位置编码,间接参与到token输入表征中。
而相对位置编码(RPE)在self-attention环节中,关注以后token时,应用其余token与其的相对位置编码传递位置消息。
其中,Sinusoidal位置编码是最基础的相对位置编码形式,其公式设计旨在让模型学习到token之间的相对位置相关。
虽然尝试了可学习位置编码,但二者结果相似,且Sinusoidal编码在序列长度外推方面体现杰出,因此成为Transformer模型的首选。
Sinusoidal编码通常上具备有限序列长度外推才干,但在embedding维度较小时,不同位置词的position embedding差异清楚,当维度增大后,差异逐渐减小。
关于BERT-large 768维度的embedding,或者已足够,但更复杂状况则需探求更适合的位置编码形式。
另一种方法是经过参数初始化构建位置矩阵,让模型学习到相对位置编码。
这种形式在训练成功后不可成功序列外推,但基于档次合成思绪,可以处置超长文本处置疑问。
但是,最优参数a的选用需经过试验验证。
另外,FLOATER等钻研应用递归模型,确保结构学习到位置消息。
相对位置编码作为transformer架构罕用形式,强调相邻词间强位置相关。
位置编码类型可进一步划分为XLNet、T5和DeBERTa等。
“Attention with Linear Biases (ALiBi)”是2022年ICLR文章提出的一种陈腐位置编码方法。
它优化了Transformer的期间复杂度,清楚优化了训练效率和内存经常使用。
经过在Q*K^T上加上天位编码,成功更优的外推才干,展现出比Sinusoidal编码更好的模型外推功能。
本文深化讨论了位置编码的改良战略,从基本的Sinusoidal编码到相对编码、学习编码,再到“Attention with Linear Biases”的翻新运行,旨在为人造言语处置畛域提供更高效、更准确的模型构建方法。
Transformer功能优化:运算和显存
Transformer在深度学习畛域中表演着关键角色,尤其在人造言语处置、图像处置等畛域施展着关键作用。
自留意力机制造为Transformer的外围,其简直无成见的个性在少量数据的支持下,为Transformer提供了弱小的建模才干,但同时也带来了运算和显存限度的疑问。
这些疑问使得Transformer在处置长序列疑问时受限。
为处置此疑问,本文将引见一些代表性的上班,论述它们如何优化Transformer的功能。
经典的Transformer结构蕴含编码器(Encoder)和解码器(Decoder)两个部分,关键组件有:多头自留意力(Multi-Head Self-Attention)、位置前馈网络(Position-wise Feed-forward)以及残差衔接(Residual Connect)。
在这一结构中,多头自留意力模块和位置前馈网络模块在运算资源消耗上占据关键位置。
为优化Transformer的功能,钻研者们对结构启动了改良。
一种基于递归衔接的改良方法是Transformer-XL,它经过引入一个记忆形态,将以后段处置时应用前一个段的一切层暗藏向量序列启动综合,以此衔接长文本的一切段落。
在引入片段级递归机制后,Transformer-XL能够清楚提高测试效率,并且随着序列长度的增大而愈发清楚。
为处置每个段落增加相反位置编码造成的序列间位置区分疑问,Transformer-XL驳回相对位置编码,经过计算以后位置与依赖单词的相对位置相关来优化编码环节。
另一种改良方法是引入稠密留意力机制,以缩小计算开支。
Sparse Transformer是早期基于这一思绪的上班之一,它经过从新定义留意力计算环节,提出稠密留意力形式,如Strided Attention和Fixed Attention,区分实用于有法令数据和文本数据,有效降落了Transformer的计算复杂度。
Longformer在此基础上进一步设计了Sliding Window、Dilated Sliding Window和Global Attention三种形式,针对NLP义务专门优化了留意力范围,经过试验验证了其在自回归义务和下游义务上优于原始Transformer的效果。
Reformer则驳回部分哈希算法来失掉每个字符须要关注的范围,经过定义哈希函数和哈希值来对相似的token启动汇集,仅对在桶中的元素启动留意力计算,以此优化Transformer的效率。
在部分敏感哈希的基础上,论文提出多轮哈希试验,验证了其在重复句子预测义务中的效果,展现了部分哈希函数无需训练的高灵敏性。
同时,论文提出了可逆残差结构,经过奇妙拆分防止了在训练环节中记载每层激活值的内存需求,进一步优化了Transformer模型。
Linformer则从低秩合成的角度登程,经过奇特值合成证实了Attention矩阵可以被正当降维,从而将复杂度从平方级降落至线性级。
在实践运行中,Linformer经过给key和value矩阵增加线性变换来成功降维,简化了计算环节。
虽然这种方法成功了高效运转,但在自回归生成义务中存在不可有效覆盖序列消息的毛病,使得Linformer仅实用于MLM预训练义务。
在线性留意力改良中,Linear Transformer和Performer经过引入核函数代替softmax,成功了运算复杂度的降落。
Performer进一步提供了通常证实,经过向量采样和正交化技术来优化核函数映射,使得留意力计算愈加高效。
这些改良方法在长序列相关义务上体现出较高的效率和效果,为处置Transformer在处置长序列疑问时的运算和显存限度提供了有效路径。
总的来说,经过递归衔接、稠密留意力、部分哈希、低秩合成和线性留意力等改良战略,钻研者们在提高Transformer处置长序列义务的功能和效率方面取得了清楚成绩。
这些优化方法不只无通常上提供了深化了解,而且在通常中为Transformer模型的运行提供了更宽泛的或者性。
transformer模型中的"多头留意力机制"的长处是什么?
1. Transformer模型的外围是留意力机制(Attention Mechanism),它在处置长距离依赖方面比循环神经网络(RNN)和卷积神经网络(CNN)更有效。
2. 留意力机制的引入是为了处置神经网络在处置少量消息时计算才干有限的疑问,以及优化算法的限度。
它准许模型有选用性地关注输入消息中的关键部分,从而提高效率和表白才干。
3. 留意力机制可以分为聚焦式(focus)和清楚性(saliency-based)两类。
在深度学习畛域,通常指的是聚焦式留意力,它是一种自上而下的无看法的留意力,即被动留意。
4. 留意力机制的计算流程包括消息输入、计算留意力散布α、依据留意力散布α 来计算输入消息的加权平均。
其中,soft attention 机制准许模型在给定查问q时,对一切或者的键值对启动加权求和,而硬留意力(hard attention)则选用最高概率或随机采样的键值对。
5. 留意力机制的一些变种包括键值对留意力、多头留意力等。
多头留意力准许模型并行地计算多个查问Q,以取得输入消息的不同方面,而后将结果拼接起来。
6. Transformer模型由多个留意力机制组成,包括编码器(Encoder)和解码器(Decoder)。
编码器用于处置输入序列,解码器用于生成输入序列。
在解码器中,有一种不凡的留意力机制——Encoder-Decoder attention,它准许解码器在生成输入时参考编码器的所有输入。
7. 在Transformer中,自留意力(self-attention)机制用于在编码器和解码器中建设长距离依赖相关。
自留意力机制的计算环节触及多头留意力,其中每个头计算一个留意力得分,而后将这些得分加权求和以生成最终的输入。
8. Transformer在GPT和BERT等模型中的运行有所不同。
GPT经常使用Transformer Decoder部分来训练单向言语模型,而BERT经常使用Transformer Encoder并在其基础上参与了Masked操作来训练双向言语模型。
以上内容改写后,愈加准确地形容了留意力机制和Transformer模型的原理及其在不同模型中的运行。
文章评论