17日前
言語モデルは汎用インターフェースである
Yaru Hao, Haoyu Song, Li Dong, Shaohan Huang, Zewen Chi, Wenhui Wang, Shuming Ma, Furu Wei

要約
基礎モデルは、幅広い下流タスクにおいて高い効果を示す点から、注目を集めている。アーキテクチャの面で大きな統合が進んでいる一方で、多くの事前学習モデルは依然として特定のタスクやモダリティ向けに開発されている。本研究では、言語モデルをさまざまな基礎モデルとの汎用インターフェースとして活用する手法を提案する。多様なモダリティ(視覚や言語など)を処理する事前学習済みエンコーダ群が、汎用的なタスク層として機能する言語モデルと接続される。本研究では、インターフェースとモジュール型エンコーダを共同で事前学習するための「準因果的言語モデリング」目的関数を提案する。このアプローチは、因果的モデリングと非因果的モデリングの両方の利点と能力を統合することで、「二つの世界の最適な点」を兼ね備える。具体的には、因果的言語モデリングから継承する文脈内学習やオープンエンド生成の能力に加え、双方向エンコーダの特性により微調整(fine-tuning)にも適している。さらに重要なのは、これらの能力をシームレスに組み合わせられることであり、たとえば微調整済みエンコーダを用いて文脈内学習や指示追従(instruction following)を実現できることである。言語のみおよび視覚言語の多様なベンチマークにおいて実施した実験結果から、本モデルは微調整性能、ゼロショット一般化、少サンプル学習の観点で、専用モデルと比較して優れているか、あるいは同等の性能を発揮することが示された。