17日前

REALM:リトリーブ増強型言語モデル事前学習

Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang
REALM:リトリーブ増強型言語モデル事前学習
要約

言語モデルの事前学習は、質問応答などの自然言語処理(NLP)タスクに不可欠な世界知識の驚くべき量を捉えていることが示されており、これはニューラルネットワークのパラメータ内に非明示的に保存されている。しかしながら、このような知識はネットワークの規模が大きくなるにつれてのみ拡張可能であり、より多くの事実をカバーするにはますます大きなネットワークが必要となる。知識をよりモジュール化され、解釈可能な形で捉えるため、我々は言語モデルの事前学習に潜在的な知識検索機構(latent knowledge retriever)を追加した。これにより、事前学習、微調整(fine-tuning)、および推論の各段階で、Wikipediaのような大規模コーパスから文書を検索し、その内容に注目(attention)することができる。本研究では、マスクされた言語モデル化(masked language modeling)を学習信号として用い、数百万の文書を考慮する検索ステップをバックプロパゲーションで通すことで、初めて非教師ありの方法でこの知識検索機構を事前学習する手法を提示した。本研究で提案する「検索拡張型言語モデル事前学習」(Retrieval-Augmented Language Model pre-training, REALM)の有効性を、オープンドメイン質問応答(Open-domain Question Answering, Open-QA)という難易度の高いタスクにおける微調整によって検証した。3つの代表的なOpen-QAベンチマークにおいて、従来の明示的・非明示的知識格納方式を採用した最先端モデルと比較した結果、我々の手法はすべての既存手法を顕著な差(絶対精度で4~16%向上)で上回った。さらに、解釈可能性やモジュール性といった定性的な利点も同時に実現している。

REALM:リトリーブ増強型言語モデル事前学習 | 最新論文 | HyperAI超神経