首页 SEO算法 正文

高斯误差线性单元 BERT中的激活函数GELU (高斯误差方程)

SEO算法 2024-11-16 56
高斯误差方程

本文目录导航:

BERT中的激活函数GELU:高斯误差线性单元

在预训练言语模型中,GELU(高斯误差线性单元)作为干流激活函数,其设计融合了ReLU、Dropout以及规范化的思维,旨在提高模型的泛化才干和效率。

激活函数的引入为神经网络提供了非线性拟合才干,ReLU作为早期的激活函数因其便捷高效而广受欢迎。

但是,为防止过拟合,正则化手腕如Dropout被引入,经过随机摈弃局部神经元输入,从而提高模型泛化才干。

GELU函数则将正则化的思维融入激活环节中,经过随机选用输入乘以0或1,基于以后输入的概率来选择能否“摈弃”。

详细而言,GELU函数经过输入与伯努利散布的随机选用相结合,应用规范正态散布的累积散布函数计算输入,成功了输入依赖的随机摈弃。

这一环节依赖于输入数据遵照正态散布的个性,特意是在经过归一化处置后,更易于成功这一指标。

数学上,GELU函数的表白式为:f(x) = x * Φ(x),其中Φ(x)是规范正态散布的累积散布函数。

这一函数经过引入误差函数(erf)作为近似计算手腕,简化了实践计算环节,使得模型训练愈加高效。

通常中,GELU函数的成功通常驳回近似方法,Google的BERT模型中经常使用了sigmoid或tanh函数的近似表白式。

而更准确的计算方法在一些预训练模型中被间接驳回,以提高模型功能。

总之,GELU激活函数经过融合正则化思维和规范化处置,提高了深度神经网络的非线性拟合才干,有效防止了过拟合,是预训练言语模型中关键的设计之一。

BERT+常识图谱:北大-腾讯联结推出常识赋能的K-BERT模型

近年来,无监视预训练言语示意模型,如谷歌的BERT,已在多项人造言语处置(NLP)义务中取得了清楚成绩。

这些模型在大规模开明域语料库上启动预训练,以取得通用的言语示意方式,并在特定下游义务中微调以排汇特定畛域的常识。

但是,由于预训练与微调之间的畛域差异,这些模型在常识驱动义务上的体现并不现实。

以医疗畛域的电子病历(EMR)剖析为例,经过Wikipedia预训练的Google BERT在处置专业畛域文本时面临应战。

人们通常在浏览特定畛域文本时,能依据高低文了解单词,而专家则能应用关系畛域常识启动推断。

目前宽泛经常使用的预训练模型,如BERT、GPT、XLNet等,均基于开明畛域语料库预训练,相似于一个个别人,虽然能够了解通用文本,但在专业畛域文本处置时不足特定背景常识。

处置这一疑问的一个方法是经常使用专业畛域语料库启动预训练,但这一环节耗时且计算资源密集,个别钻研者难以成功。

例如,若宿愿模型把握“扑热息痛用于治疗感冒”的常识,需少量同时发生“扑热息痛”和“感冒”的语料。

经过畛域语料库预训练引入专家常识时,其可解释性和可控性也较差。

除了经常使用专业畛域语料启动预训练,如何让模型成为畛域专家?常识图谱(KG)提供了一个有效处置打算。

随着常识被细化为结构化方式,许多畛域构建了KG,如医学畛域的SNOMED-CT、中国的HowNet。

将KG集成到预训练言语模型中,可为模型装备畛域常识,提高特定畛域义务功能,同时降落大规模预训练老本。

常识图谱的高可解释性,源于其可手动编辑和注入常识。

以后,将常识图谱与言语模型结合的钻研有哪些?最具代表性的是清华的ERNIE,它经过独立的TransE算法取得实体向量,而后将实体向量嵌入到BERT中。

虽然ERNIE上班具备自创意义,但仍存在改良空间,例如:在常识引入过多时,或许扭转句子原意,即“常识噪声”疑问。

基于以上疑问,本文钻研团队对Google BERT启动了改良,提出K-BERT模型。

K-BERT经过常识层将常识图谱关联消息注入到句子中,构成背景常识丰盛的句子树,接着应用软位置和可见矩阵等翻新方法处置结构消息,成功了常识图谱与BERT模型的有效结合。

试验标明,K-BERT在特定畛域义务上体现良好,优化了模型对背景常识的应用才干。

K-BERT模型的提出,为处置NLP畛域常识驱动义务提供了新思绪,经过常识图谱与言语模型的整合,优化了模型的畛域特定功能,降落了预训练老本,提高了模型的可解释性和可控性。

目前,该上班已被AAAI-2020收录,展现了其在学术畛域的关键性和潜在价值。

为了促成更多优质内容的共享与交换,PaperWeekly平台激励高校试验室和团体分享最新论文解读、学习心得或技术干货。

经过这个平台,不同背景和方向的学者可以相互碰撞,激起新的灵感和或许。

投稿时请提供团体基本消息(姓名+学校/上班单位+学历/职位+钻研方向),确保内容原创,并在颁布前附上一切已颁布链接。

咱们将与作者沟通,将优质内容以最短门路抵达读者个体。

BERT词嵌入与文本相似度对比(附代码)

2018年是迁徙学习模型在NLP畛域大放异彩的一年。

像Allen AI的ELMO,Open AI的GPT和Google的BERT模型,钻研人员经过对这些模型启动微调(fine-tuning)始终刷新了NLP的多项benchmarks。

在本教程中,咱们将经常使用BERT从文本数据中提取特色,即单词和句子嵌入向量。

这些单词和句子的嵌入向量可以做什么?首先,这些嵌入可用于关键字/搜查裁减,语义搜查和消息检索。

例如,假设您想将客户疑问或搜查结果与已回答的疑问或有据可查的搜查结果启动婚配,即使没无关键字或词组堆叠,这些示意方式也可以协助您准确地检索出合乎客户用意和高低文含意的结果。

其次,兴许更关键的是,这些向量被用作下游模型的高品质特色输入。

NLP模型(例如LSTM或CNN)须要以向量方式输入,这通常象征着将诸如词汇和语音局部之类的特色转换为数字示意。

过去,单词被示意为惟一索引值(one-hot编码),或许更有用地示意为神经词嵌入,其中词汇词与诸如Word2Vec或Fasttext之类的模型生成的固定长度特色嵌入相婚配。

BERT提供了优于Word2Vec之类的模型的长处,由于虽然每个单词在Word2Vec下都具备固定的示意方式,而不论该单词发生的高低文如何,但BERT都会依据周围的单词灵活地发生单词示意方式。

例如,给出两个句子:

“The man was accused of robbing a bank.” “The man went fishing by the bank of the river.”

Word2Vec将在两个句子中为单词“ bank”嵌入相反的单词,而在BERT下,每个单词中“ bank”嵌入的单词将不同。

除了捕捉诸如多义性之类的清楚差异外,高低文通知的单词嵌入还捕捉其余方式的消息,这些消息可发生更准确的特色示意,从而带来更好的模型功能。

从学习的角度来看,细心审核BERT单词嵌入是学习经常使用BERT及其迁徙学习模型系列的好方法,它为咱们提供了一些通经常识和背景常识,可以更好地理解该模型的外部细节。

BERT是预训练的模型,它希冀的输入应该是有特定格局的。

接口为咱们处置好了一局部的输入规范。

(继续降级中...)

手机的闪存卡格局化成fat32后不能再识别闪存卡了 怎样办? (手机的闪存卡在哪里)
« 上一篇 2024-11-16
圆明园文源阁遗址考古发掘工作基本结束,多项遗迹最新发现
下一篇 » 2024-11-16

文章评论

文章详细介绍了BERT中的激活函数GELU、常识图谱在NLP中的应用以及使用预训练模型提取文本特征的方法,内容深入,对理解深度学习在自然语言处理领域的应用很有帮助!

本文详细介绍了BERT中的激活函数GELU、常识图谱在NLP中的应用以及使用预训练模型提取文本特征的方法,对理解深度学习在自然语言处理领域的应用很有帮助。