11日前

DeBERTa:分離 Attention を備えたデコード強化型 BERT

Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen
DeBERTa:分離 Attention を備えたデコード強化型 BERT
要約

最近の事前学習済みニューラル言語モデルの進展により、多くの自然言語処理(NLP)タスクにおける性能が著しく向上している。本論文では、BERTおよびRoBERTaモデルをさらに向上させるために、2つの新規技術を用いた新しいモデルアーキテクチャ「DeBERTa(Disentangled Attentionを搭載したDecoding-enhanced BERT)」を提案する。第一に、分離型アテンション機構(disentangled attention mechanism)を導入し、各単語をその内容と位置をそれぞれ表現する2つのベクトルで表す。そして、単語間のアテンション重みは、内容と相対的位置それぞれに対応する分離された行列を用いて計算する。第二に、マスクされたトークンを予測するモデル事前学習のデコーディング層において、絶対的位置情報を組み込むために強化されたマスクデコーダーを採用する。さらに、モデルの汎化性能を向上させるため、ファインチューニング段階で新たな仮想敵対的学習法(virtual adversarial training)を導入している。これらの技術により、モデルの事前学習効率が顕著に向上し、自然言語理解(NLU)および自然言語生成(NLG)の下流タスクにおける性能も大幅に改善されることを示した。RoBERTa-Largeと比較して、訓練データの半分で学習したDeBERTaモデルは、幅広いNLPタスクにおいて一貫して優れた性能を発揮し、MNLIでは+0.9%(90.2% → 91.1%)、SQuAD v2.0では+2.3%(88.4% → 90.7%)、RACEでは+3.6%(83.2% → 86.8%)の改善を達成した。特に注目すべきは、48層のTransformer構造を有し、パラメータ数15億の大型版DeBERTaを構築した点である。この大幅な性能向上により、単一のDeBERTaモデルが、マクロ平均スコア(89.9 vs. 89.8)において、Wangら(2019a)が提唱したSuperGLUEベンチマークで初めて人間の性能を上回ることに成功した。また、2021年1月6日時点でのSuperGLUEリーダーボードでは、アンサンブル版DeBERTaモデルがトップに位置し、人間のベースライン(89.8)を明確な差で上回るスコア(90.3)を記録している。

DeBERTa:分離 Attention を備えたデコード強化型 BERT | 最新論文 | HyperAI超神経