微软DeBERTa登顶SuperGLUE排行榜

作者:电工吧 日期:2021-02-16 11:42:19 人气: 栏目:市场动态

在最新的NLU测试基准SuperGLUE中,微软提出的DeBERTa登顶榜单,并超越人类。

去年6月,来自微软的研究者提出一种新型预训练语言模型DeBERTa,该模型使用两种新技术改进了BERT和RoBERTa模型。8月,该研究开源了模型代码,并提供预训练模型下载。最近这项研究又取得了新的进展。微软最近通过训练更大的版本来更新DeBERTa模型,该版本由48个Transformer层组成,带有15亿个参数。本次扩大规模带来了极大的性能提升,使得单个DeBERTa模型SuperGLUE上宏平均(macro-average)得分首次超过人类(89.9vs89.8),整体DeBERTa模型在SuperGLUE基准排名中居于首位,以90.3的得分显著高出人类基线(89.8)。目前该模型以90.8的宏平均(macro-average)得分高居GLUE基准排名的首位。

SuperGLUE排行榜,2021年1月6日。DeBERTa是一种基于Transformer,使用自监督学习在大量原始文本语料库上预训练的神经语言模型。像其他PLM一样,DeBERTa旨在学习通用语言表征,可以适应各种下游NLU任务。DeBERTa使用3种新技术改进了之前的SOTAPLM(例如BERT、RoBERTa、UniLM),这3种技术是:

分解注意力(disentangLEDattention)机制;

增强型掩码解码器;

一种用于微调的虚拟对抗训练方法。

ee5e6fae-603d-11eb-8b86-12bb97331649.png

DeBERTa的架构。最近该研究在arXiv上提交了DeBERTa的最新论文,文中详细介绍了DeBERTa模型的方法及最新的实验结果。

论文链接:https://arxiv.org/pdf/2006.03654v2.pdf下面我们来详细看一下该模型用到的3种新技术。分解注意力机制与BERT不同,DeBERTa中每个词使用两个对其内容和位置分别进行编码的向量来表示,使用分解矩阵分别根据词的内容和相对位置来计算词间的注意力权重。采用这种方法是因为:词对的注意力权重(衡量词与词之间的依赖关系强度)不仅取决于它们的内容,还取决于它们的相对位置。例如,「deep」和「learning」这两个词在同一个句子中接连出现时的依赖关系要比它们出现在不同句子中强得多。增强型掩码解码器与BERT一样,DeBERTa也使用掩码语言建模(MLM)进行了预训练。DeBERTa将语境词的内容和位置信息用于MLM。分解注意力机制已经考虑了语境词的内容和相对位置,但并没有考虑这些词的绝对位置,但这在很多情况下对于预测至关重要。例如句子「anewstoreopenedbesidethenewmall」其中,「store」和「mall」在用于预测时被掩码操作。尽管两个词的局部语境相似,但是它们在句子中扮演的句法作用是不同的。(例如,句子的主角是「store」而不是「mall」)。

这些句法上的细微差别在很大程度上取决于词在句子中的绝对位置,因此考虑单词在语言建模过程中的绝对位置是非常重要的。DeBERTa在softmax层之前合并了绝对词位置嵌入,在该模型中,模型根据词内容和位置的聚合语境嵌入对被掩码的词进行解码。规模不变的微调虚拟对抗训练是一种提升模型泛化性的正则化方法。它通过提高模型对对抗样本(adversarialexamples)的鲁棒性来实现这一点,其中对抗样本是通过对输入进行细微的干扰而创建的。对模型进行正则化,以便在给出一种特定任务样本时,该模型产生的输出分布与在该样本的对抗型干扰版本上产生的输出分布相同。对于NLU任务,干扰被用于词嵌入,而不是原始的词序列。

但是,嵌入向量的值范围(范数)在不同的词和模型上有所不同。对于具有数十亿个参数的较大模型,方差会比较大,从而导致对抗训练不稳定性。受层归一化的启发,为了提高训练稳定性,该研究开发了一种规模不变的微调(Scale-Invariant-Fine-Tuning(SiFT))方法,该方法将干扰用于归一化的词嵌入。实验该研究用实验及结果评估了DeBERTa在NLU和NLG的各种NLP任务上的性能。在NLU任务上的主要结果受此前BERT、RoBERTa和XLNet等论文的影响,该研究使用大型模型和基础模型进行结果展示。大型模型性能结果如下表所示:

f06a7432-603d-11eb-8b86-12bb97331649.png

表1:在GLUE开发集上的结果对比。表1总结了8个GLUE任务的结果,其中将DeBERTa与具有类似transformer结构的一些模型进行了比较,这些模型包括BERT、RoBERTa、XLNet、ALBERT以及ELECTRA。注意,RoBERTa、XLNet以及ELECTRA训练数据的大小为160G,而DeBERTa训练数据大小为78G。该研究还对DeBERTa进行了一些其他的基准评估:

问答:SQuADv1.1、SQuADv2.0、RACE、ReCoRD以及SWAG;

自然语言推理:MNLI;

命名体识别(NER):CoNLL-2003。

结果如表2所示。

f1d2e9ee-603d-11eb-8b86-12bb97331649.png

表2:在MNLIin/out-domain、SQuADv1.1、SQuADv2.0、RACE、ReCoRD、SWAG、CoNLL2003NER开发集上的结果展示。基础模型性能比较基础模型预训练的设置与大型模型的设置类似,基础模型结构遵循BERT的基础模型结构,性能评估结果如表3所示。

f3227da0-603d-11eb-8b86-12bb97331649.png

表3:在MNLIin/out-domain(m/mm)、SQuADv1.1和v2.0开发集上的结果对比。生成任务结果比较该研究在数据集Wikitext-103上,进一步对带有自回归语言模型(ARLM)的DeBERTa模型进行了评估。

f38363ae-603d-11eb-8b86-12bb97331649.png

表4:在Wikitext-103数据集上,不同语言模型对比结果。DeBERTa_base在开发集和测试集上都获得了比较好的PPL结果,MLM和ARLM联合训练进一步降低了PPL,这展示了DeBERTa的有效性。模型分析消融实验:为了验证实验设置,该研究从头开始预训练RoBERTa基础模型。并将重新预训练的RoBERTa称为RoBERTa-ReImp_base。为了研究DeBERTa模型不同部分对性能的影响,研究人员设计了三种变体:

EMD表示没有EMD的DeBERTa基础模型;

C2P表示没有内容到位置term的DeBERTa基础模型;

P2C表示没有位置到内容term的DeBERTa基础模型。由于XLNet也使用了相对位置偏差,所以该模型与XLNet+EMD模型比较接近。

f3edd4fa-603d-11eb-8b86-12bb97331649.png

表5总结了DeBERTa基础模型消融实验在四个基准数据集上的结果。预训练效率为了研究模型预训练的收敛性,该研究以预训练step数的函数的形式可视化微调下游任务的性能,如图1所示,对于RoBERTaReImp基础模型和DeBERTa基础模型,该研究每150K个预训练step存储一个检查点,然后对两个有代表性的下游任务(MNLI和SQuADv2.0)上的检查点进行微调,之后分别报告准确率和F1得分。

f5715fcc-603d-11eb-8b86-12bb97331649.png

图1:DeBERTa及其相似模型在MNLI、SQuADv2.0开发集上的预训练性能曲线。扩展至15亿参数更大的预训练模型会显示出更好的泛化结果。因此,该研究建立了一个拥有15亿个参数的DeBERTa,表示为DeBERTa_1.5B,该模型有48层。在160G预训练数据集上训练DeBERTa_1.5B,并且使用数据集构造了一个大小为128K的新词汇表。

f6a34504-603d-11eb-8b86-12bb97331649.png

表6:DeBERTa_1.5B和其他几种模型在SuperGLUE测试集上的结果。

原文标题:NLU新里程碑,微软DeBERTa登顶SuperGLUE排行榜,显著超越人类

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

微软DeBERTa登顶SuperGLUE排行榜(图9)
标签:

以上电工吧小编收集整理的 微软DeBERTa登顶SuperGLUE排行榜 部分内容来自网络,如有侵权请联系删除
本文地址:http://www.dg8.com.cn/news/23415.html

end
热门标签:
今日推荐
2020中国电动车质量排名前十名有哪些品牌?
2020中国电动车质量排名前十名有哪些品牌?

 2020随着电动车越来越受年轻上班族的喜爱,而骑电动车也成为了一种时尚,电动车作为短距离代步工具,具有环保、经济、不塞车等诸多优势,越来越多的人选择这种低碳环保的出行方式。那么电动车十大排名,都有哪些品牌全面领先行业呢?  第一名:雅迪电动车 ...[详细]

独家专栏
精彩推荐
热门排行