论文学习 BERT (论文学到了什么)
BERT模型全称为Bidirectional Encoder Representations from Transformer,其目标是为深度双向变换器启动预训练以了解言语。
原论文题目为BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,由Google AI Language团队颁布。
总体流程蕴含经常使用双向Transformer启动预训练,与OpenAI GPT经常使用从左到右的Transformer,以及ELMo经常使用独立训练的双向LSTM串联启动对比。
在预训练阶段,BERT经常使用了两个义务:Masked LM和Next Sentence Prediction。
Masked LM义务要求预测句子中被随机遮蔽的单词,而Next Sentence Prediction义务则判别两句话能否在文本中严密相连。
BERT的外围组件是Transformer,特意是其关键局部Attention机制。
作者将Transformer Encoder重叠12层或24层,构建出不同规模的BERT模型,参数量区分为110M和340M。
在模型输入输入方面,BERT将文本中的每个字转换为一维向量作为输入。
输入是字对应的融合全文语义消息的向量示意。
模型输入还包括文本向量,用于描写文本全局语义消息,以及位置向量,以区分不同位置的字/词。
关于不同NLP义务,BERT模型的输入和输入应用会有所不同。
模型经过预训练阶段学习到的高低文消息,为后续微调义务提供了弱小的语义示意才干。
学习资源包括一文读懂BERT、NLP的凡人肩膀、NLP必读:十分钟读懂谷歌BERT模型以及图解BERT模型,为了解BERT提供了丰盛参考。
NLP预训练模型2 -- BERT详解和源码剖析
论文消息:2018年10月,谷歌,NAACL模型和代码地址BERT的问世,在NLP畛域惹起了宽泛关注,被视为近几年意义严重的翻新。
其全称“Bidirectional Encoder Representations from Transformers”,基于Transformer结构,成功双向编码,相较于单向言语模型如GPT和非双向模型如ELMO,BERT在语义表征上更具长处,能够完整应用高低文消息。
BERT结构蕴含三层:embedding层、encoder层和prediction层。
embedding层担任对输入文本启动示意转换,蕴含三局部操作。
encoder层驳回与Transformer基本相反的架构,口头多层self-attention和feed-forward计算,生成多档次的示意。
prediction层驳回线性全衔接并softmax归一化,用于下游义务的特色抽取,如问答、情感剖析等。
BERT在四个运行场景中展现出弱小的才干,包括但不限于文本分类、问答系统、语义了解等。
从源码角度剖析,BERT基于PyTorch的HuggingFace Transformer成功。
关键在于结构BertModel,提取输入语句特色,经过多层BertLayer口头self-attention和feed-forward操作,最后在pooler层对CLS位置向量启动全衔接和激活,失掉输入向量。
BERT的预训练包括两局部义务,即双向MLM和单向LTR,其中双向MLM在多义务学习中体现清楚优于单向LTR。
预训练义务的试验剖析显示,BERT在不同语料数据集上训练,如蕴含800M词语的BooksCorpus和蕴含2,500M词语的英语Wikipedia,能够成功功能优化。
输入预解决触及tokenize操作,将文本转换为模型可解决的格局。
语料数据集的大小对模型功能有清楚影响,BERT在大规模数据集上训练,能够到达更好的功能。
耗时剖析显示,BERT的预训练阶段十分耗时,特意是在大规模语料集上,须要少量的计算资源和期间。
但是,fine-tune阶段相对轻松,通常在几小时内即可成功,实用于不同义务如GLUE、SQuAD、SWAG等。
BERT在GLUE义务上的体现大幅逾越过后的SOTA模型,平均分数提高了7个点,各个子义务也均失掉了清楚优化,特意是在CoLA义务上优化了15个点,这是惹起渺小反馈的关键要素之一。
模型大小、fine-tune超参选用、以及feature-based和fine-tune方法在下游义务中的运行,对模型功能有着关键影响。
BERT的模型大小越大,功能通常越高,罕用的base和large模型在超参上体现出较强的泛化才干。
在具备较多训练数据的义务中,fine-tune方法通常优于feature-based方法。
总结,BERT的推出对NLP畛域发生了深远影响,开启了基于Transformer结构的预训练模型时代。
虽然存在一些局限性,如预训练与fine-tune阶段的不分歧性、中文字mask模式的便捷化等疑问,后续模型如XLNet、ERNIE、SpanBERT、Roberta、T5等对BERT启动了优化和改良。
作者旧书介绍,历经两年多的撰写,提供深度学习与NLP畛域的常识与见地。
购书模式为京东限时15天内5折活动,原价89,现价44.5。
发货速度快,京东自营,半天即可送到。
扫描图书封底二维码,进入读者群失掉源代码下载模式。
有任何技术、offer选用和职业布局疑问,均可在读者微信群中咨询作者。
售后无忧,支持京东七天在理由退货。
更多具体引见和全书目录,请关注相相关列文章。
BERT的学习与通常
BERT是基于Transformer模型的预训练言语模型,由Google在2018年提出,经过在大规模无监视语料库上启动预训练,学习文本的深层高低文示意,再针对下游义务启动微调。
其外围翻新在于预训练加微调方法,效果清楚优化了NLP畛域的多个义务。
BERT结构关键由多层重叠的Transformer编码器导致,蕴含自留意力机制和前馈神经网络。
自留意力机制能够捕捉单词之间的依赖相关,使模型了解句子的语义。
前馈网络则转换编码器的输入为更复杂的示意。
BERT的双向个性准许同时思考文本的左右消息,更好地捕捉高低文相关,从而在NLP义务上取得先进成绩。
BERT的模型结构由嵌入层、Transformer编码器组成,其中嵌入层驳回Token、Segment和Position嵌入,将文本转换为模型可解决的数值向量。
编码器中的自留意力机制准许模型关注文本中的词对词相关,前馈网络提取更深档次特色。
多个编码器重叠,以逐渐提取和整合文本的多档次消息。
BERT在预训练阶段经过掩码言语模型义务,成功了双向结构,准许模型思考左右文消息。
微调阶段在小规模有标签数据集上启动,顺应特定义务,坚持模型在预训练时捕捉的双向高低文了解才干。
文章评论
BERT模型是NLP领域的重大突破,基于Transformer的预训练方式使其能够深入理解文本语义,其双向特性提高了上下文捕捉能力,显著优化了多个任务性能。#评论#
BERT模型是NLP领域的重大突破,基于Transformer的预训练方式使其能够深入理解文本语义,其双向特性更是提升了高低文信息的捕捉能力在多个任务上取得显著成绩评论简洁明了地概括了上述内容的核心观点和价值所在。。