4ヶ月前

MPNet: 言語理解のためのマスクと並べ替えによる事前学習

Kaitao Song; Xu Tan; Tao Qin; Jianfeng Lu; Tie-Yan Liu
MPNet: 言語理解のためのマスクと並べ替えによる事前学習
要約

BERTは、事前学習にマスク言語モデル(Masked Language Modeling: MLM)を採用しており、最も成功した事前学習モデルの一つです。しかし、BERTは予測トークン間の依存関係を無視しているため、XLNetではこの問題を解決するために置換言語モデル(Permuted Language Modeling: PLM)が導入されました。しかしながら、XLNetは文全体の位置情報を利用していないため、事前学習と微調整の間に位置情報のずれが生じます。本論文では、BERTとXLNetの利点を受け継ぎつつその制限を回避する新しい事前学習手法であるMPNetを提案します。MPNetは、置換言語モデル(PLM)を通じて予測トークン間の依存関係を利用し、補助的な位置情報を入力として取り入れることでモデルが文全体を見ることができ、位置情報のずれを軽減します(BERTのMLMとは異なり)。私たちは大規模なデータセット(160GB以上のテキストコーパス)でMPNetを事前学習させ、GLUEやSQuADなどの様々な下流タスクで微調整を行いました。実験結果は、MPNetがMLMとPLMに対して大幅に優れており、同じモデル設定のもとで従来の最先端の事前学習手法(例:BERT, XLNet, RoBERTa)よりもこれらのタスクでより良い結果を達成していることを示しています。コードおよび事前学習済みモデルは以下のURLから入手可能です: https://github.com/microsoft/MPNet.