HyperAIHyperAI

Command Palette

Search for a command to run...

リトリーブ拡張マルチモーダル言語モデル化

Michihiro Yasunaga Armen Aghajanyan Weijia Shi Rich James Jure Leskovec Percy Liang Mike Lewis Luke Zettlemoyer Wen-tau Yih

概要

近年、DALL-EやCM3などのマルチモーダルモデルは、テキストから画像を生成するタスクおよび画像からテキストを生成するタスクにおいて顕著な進展を遂げている。しかし、これらのモデルは学習した知識(例:エッフェル塔の外観など)をすべてモデルパラメータに埋め込むため、より多くの知識を捉えるために、モデルサイズおよび学習データ量がますます増大する必要がある。よりスケーラブルでモジュール的な知識統合を実現するため、本研究ではリトリーバー拡張型マルチモーダルモデルを提案する。このモデルは、ベースとなるマルチモーダルモデル(生成器)が、外部メモリ(例:ウェブ上のドキュメント)からリトリーバーによって取得された関連するテキストや画像を参照できるようにする。具体的には、リトリーバーとして事前学習済みのCLIPを用い、生成器としてLAIONデータセット上でCM3 Transformerを学習する。本研究で得られたモデルは「リトリーブ拡張型CM3(Retrieval-Augmented CM3、RA-CM3)」と命名され、初めてテキストと画像の両方をリトリーブし、生成可能なマルチモーダルモデルである。実験の結果、RA-CM3はDALL-EやCM3といったベースラインモデルに比べ、画像生成およびキャプション生成の両タスクにおいて顕著な性能向上を示した(MS-COCOデータセットにおいてFIDで12点、CIDErで17点の向上)。さらに、学習に必要な計算資源はDALL-Eの30%未満で済む。また、RA-CM3は忠実な画像生成やマルチモーダルなコンテキスト内学習(例:デモンストレーションからの画像生成)といった新たな能力を有することも示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています