2ヶ月前

CDLM: Cross-Document Language Modeling CDLM: 複数文書言語モデル

Avi Caciularu; Arman Cohan; Iz Beltagy; Matthew E. Peters; Arie Cattan; Ido Dagan

要約

多文書言語モデリング向けの新しい事前学習アプローチを紹介します。このアプローチでは、マスクされた言語モデリングの自己監督学習目標に2つの重要なアイデアを取り入れています。まず、文書を個別に扱うのではなく、複数の関連する文書のセットで事前学習を行い、モデルが文書間の関係性を学ぶことを促進します。次に、最近の長距離トランスフォーマーを改善するために、入力全体にアクセスしてマスクされたトークンを予測できる動的グローバル注意機構を導入しています。私たちはCDLM（Cross-Document Language Model）という新しい一般的な言語モデルを公開しました。これは多文書設定に簡単に適用できるモデルです。詳細な分析により、これらの2つのアイデアがCDLMの成功にとって不可欠であり、相乗効果によっていくつかの多文書タスクで新たな最先端結果を達成することが示されています。コードとモデルはhttps://github.com/aviclu/CDLM から利用可能です。