Transformer全流程详解 大模型基础

本文目录导航:
- 【大模型基础】Transformer全流程详解
- 【Transformer 位置编码】改良Transformer位置编码,成功最强SOTA方法!
- transformer模型中的"多头留意力机制"的长处是什么?
【大模型基础】Transformer全流程详解
Transformer是一种弱小的神经网络架构,它以预测单词为外围,让咱们以“我爱”为例,讨论其上班原理。
首先,Transformer的结构包括一个Encoder,其配置是接纳一序列向量X,并输入另一序列向量H,经常使用自留意力机制成功消息的高效传递。
每个Encoder由多个block组成,每个block外部蕴含几个层,驳回残差衔接增强模型性能。
Multi-head attention是自留意力机制的外围,它能够处置多维度消息。
接上去,经过残差衔接和Layer Normalization(层归一化)处置,再经过全衔接层和另一层Layer Normalization进后退一步计算。
添加Positional Encoding是为了让模型识别输入的顺序消息。
Transformer架构经过始终优化,例如经过调整Norm层(如PowerNorm),或许提早经常使用Layer Norm层,以优化模型性能。
Decoder的重要义务是接纳Encoder的输入并生成预测结果,驳回自回归模式,即依赖于先前的输入和Encoder消息预测下一个词。
但是,自回归模型存在Error Propagation疑问,即一旦早期预测有误,后续预测会遭到重大影响。
为了防止这种状况,Decoder中的Masked Multi-head attention与Encoder有所不同,但详细细节在P50-11:50处还有待倒退。
【Transformer 位置编码】改良Transformer位置编码,成功最强SOTA方法!
本文聚焦于改良Transformer位置编码,以成功最优SOTA方法。
自2017年Transformer架构提出后,位置编码成为钻研热点。
本文以2022年ICLR的一篇论文“Train short, Test long: Attention with linear biases enables input length extrapolation”为例,详细讨论位置编码的改良战略。
位置编码重要分为相对位置编码和相对位置编码两大类。
相对位置编码经过函数公式或可学习参数取得每个token的位置编码,间接添加到token输入表征中。
而相对位置编码(RPE)在self-attention环节中,关注以后token时,应用其余token与其的相对位置编码传递位置消息。
其中,Sinusoidal位置编码是最基础的相对位置编码模式,其公式设计旨在让模型学习到token之间的相对位置相关。
只管尝试了可学习位置编码,但二者结果相似,且Sinusoidal编码在序列长度外推方面体现杰出,因此成为Transformer模型的首选。
Sinusoidal编码切实上具备有限序列长度外推才干,但在embedding维度较小时,不同位置词的position embedding差异清楚,当维度增大后,差异逐渐减小。
关于BERT-large 768维度的embedding,或许已足够,但更复杂状况则需探求更适合的位置编码模式。
另一种方法是经过参数初始化构建位置矩阵,让模型学习到相对位置编码。
这种模式在训练成功后不可成功序列外推,但基于档次合成思绪,可以处置超长文本处置疑问。
但是,最优参数a的选用需经过试验验证。
另外,FLOATER等钻研应用递归模型,确保结构学习到位置消息。
相对位置编码作为transformer架构罕用模式,强调相邻词间强位置相关。
位置编码类型可进一步划分为XLNet、T5和DeBERTa等。
“Attention with Linear Biases (ALiBi)”是2022年ICLR文章提出的一种陈腐位置编码方法。
它优化了Transformer的期间复杂度,清楚优化了训练效率和内存经常使用。
经过在Q*K^T上添加位置编码,成功更优的外推才干,展现出比Sinusoidal编码更好的模型外推性能。
本文深化讨论了位置编码的改良战略,从基本的Sinusoidal编码到相对编码、学习编码,再到“Attention with Linear Biases”的翻新运行,旨在为人造言语处置畛域提供更高效、更准确的模型构建方法。
transformer模型中的"多头留意力机制"的长处是什么?
1. Transformer模型的外围是留意力机制(Attention Mechanism),它在处置长距离依赖方面比循环神经网络(RNN)和卷积神经网络(CNN)更有效。
2. 留意力机制的引入是为了处置神经网络在处置少量消息时计算才干有限的疑问,以及优化算法的限度。
它准许模型有选用性地关注输入消息中的关键局部,从而提高效率和表白才干。
3. 留意力机制可以分为聚焦式(focus)和清楚性(saliency-based)两类。
在深度学习畛域,通常指的是聚焦式留意力,它是一种自上而下的无看法的留意力,即被动留意。
4. 留意力机制的计算流程包括消息输入、计算留意力散布α、依据留意力散布α 来计算输入消息的加权平均。
其中,soft attention 机制准许模型在给定查问q时,对一切或许的键值对启动加权求和,而硬留意力(hard attention)则选用最高概率或随机采样的键值对。
5. 留意力机制的一些变种包括键值对留意力、多头留意力等。
多头留意力准许模型并行地计算多个查问Q,以取得输入消息的不同方面,而后将结果拼接起来。
6. Transformer模型由多个留意力机制组成,包括编码器(Encoder)和解码器(Decoder)。
编码器用于处置输入序列,解码器用于生成输入序列。
在解码器中,有一种不凡的留意力机制——Encoder-Decoder attention,它准许解码器在生成输入时参考编码器的所有输入。
7. 在Transformer中,自留意力(self-attention)机制用于在编码器和解码器中建设长距离依赖相关。
自留意力机制的计算环节触及多头留意力,其中每个头计算一个留意力得分,而后将这些得分加权求和以生成最终的输入。
8. Transformer在GPT和BERT等模型中的运行有所不同。
GPT经常使用Transformer Decoder局部来训练单向言语模型,而BERT经常使用Transformer Encoder并在其基础上添加了Masked操作来训练双向言语模型。
以上内容改写后,愈加准确地形容了留意力机制和Transformer模型的原理及其在不同模型中的运行。
文章评论