2ヶ月前

アトラス：検索拡張言語モデルを用いたFew-shot学習

Gautier Izacard; Patrick Lewis; Maria Lomeli; Lucas Hosseini; Fabio Petroni; Timo Schick; Jane Dwivedi-Yu; Armand Joulin; Sebastian Riedel; Edouard Grave

論文の詳細を見る

要約

大規模言語モデルは、幅広いタスクにおいて印象的な少ショット結果を示しています。しかし、質問応答や事実確認などの知識が重要なタスクでは、知識を保存するために大量のパラメータが必要であることが示されています。検索強化型モデルは、多くのパラメータを必要とせずに知識集約型タスクで優れた性能を発揮することが知られていますが、これらのモデルが少ショット設定で機能するかどうかは明確ではありません。本研究では、Atlasという名称の検索強化型言語モデルを提案します。このモデルは慎重に設計され、事前学習されており、非常に少ない訓練例で知識集約型タスクを学習することができます。私たちはMMLU（Multilingual Multiple-Choice Question Answering）、KILT（Knowledge Intensive Language Tasks）およびNaturalQuestionsなど、幅広いタスクにおける評価を行い、ドキュメントインデックスの内容が与える影響についても調査しました。その結果、Atlasはわずか64例を使用してNaturalQuestionsにおいて42%以上の精度を達成し、5400億パラメータを持つモデルよりも3%高い性能を発揮しました。これはパラメータ数が50倍少ないにもかかわらずです。注：「少ショット」は「few-shot」の日本語訳であり、「少量のサンプル」または「少ない訓練データ」を意味します。