17日前
リトリーブ拡張マルチモーダル言語モデル化
Michihiro Yasunaga, Armen Aghajanyan, Weijia Shi, Rich James, Jure Leskovec, Percy Liang, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih

要約
近年、DALL-EやCM3などのマルチモーダルモデルは、テキストから画像を生成するタスクおよび画像からテキストを生成するタスクにおいて顕著な進展を遂げている。しかし、これらのモデルは学習した知識(例:エッフェル塔の外観など)をすべてモデルパラメータに埋め込むため、より多くの知識を捉えるために、モデルサイズおよび学習データ量がますます増大する必要がある。よりスケーラブルでモジュール的な知識統合を実現するため、本研究ではリトリーバー拡張型マルチモーダルモデルを提案する。このモデルは、ベースとなるマルチモーダルモデル(生成器)が、外部メモリ(例:ウェブ上のドキュメント)からリトリーバーによって取得された関連するテキストや画像を参照できるようにする。具体的には、リトリーバーとして事前学習済みのCLIPを用い、生成器としてLAIONデータセット上でCM3 Transformerを学習する。本研究で得られたモデルは「リトリーブ拡張型CM3(Retrieval-Augmented CM3、RA-CM3)」と命名され、初めてテキストと画像の両方をリトリーブし、生成可能なマルチモーダルモデルである。実験の結果、RA-CM3はDALL-EやCM3といったベースラインモデルに比べ、画像生成およびキャプション生成の両タスクにおいて顕著な性能向上を示した(MS-COCOデータセットにおいてFIDで12点、CIDErで17点の向上)。さらに、学習に必要な計算資源はDALL-Eの30%未満で済む。また、RA-CM3は忠実な画像生成やマルチモーダルなコンテキスト内学習(例:デモンストレーションからの画像生成)といった新たな能力を有することも示した。