Command Palette
Search for a command to run...
クローズ駆動の自己注意ネットワークの事前学習
クローズ駆動の自己注意ネットワークの事前学習
Alexei Baevski; Sergey Edunov; Yinhan Liu; Luke Zettlemoyer; Michael Auli
概要
私たちは、言語理解のさまざまな問題において大幅な性能向上をもたらす双方向トランスフォーマーモデルの事前学習に新しいアプローチを提案します。当該モデルはクローズ形式の単語再構築タスクを解くもので、各単語が欠落しており、残りのテキストから予測する必要があります。実験結果は、GLUE(General Language Understanding Evaluation)において大きな性能向上を示し、NER(Named Entity Recognition)や句構造解析ベンチマークでも新たな最先端の成果を達成していることを証明しています。これは同時期に導入されたBERT(Bidirectional Encoder Representations from Transformers)モデルと一貫しています。また、効果的な事前学習に寄与する要因としてデータドメインとサイズ、モデル容量、クローズ目的関数の変異などについて詳細な分析を行っています。