17日前
自己回帰的マルチモーダルモデルのスケーリング:事前学習とインストラクションチューニング
Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan, Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer, Armen Aghajanyan

要約
本稿では、テキストおよび画像の両方の生成および補完が可能な、検索拡張型・トークンベース・デコーダー専用のマルチモーダル言語モデル「CM3Leon(読み:カメレオン)」を紹介する。CM3LeonはCM3マルチモーダルアーキテクチャを採用しているが、さらに多様な指示形式データを用いた大規模なスケーリングとチューニングによって、顕著な性能向上を達成している。これは、テキスト専用言語モデルの訓練手法をマルチモーダルモデルに適応した初のアプローチであり、大規模な検索拡張型事前学習ステージと、その後のマルチタスク教師あり微調整(SFT:Supervised Fine-Tuning)ステージを含む。また、汎用性の高いモデルとして、テキストから画像生成(text-to-image)および画像からテキスト生成(image-to-text)の両方に対応しており、高品質な出力を得るための自己完結型の対照的デコーディング手法を導入可能である。広範な実験により、本アプローチがマルチモーダルモデルにおいて極めて有効であることが示された。CM3Leonは、同等の手法と比較して5倍少ない学習計算資源で、テキストから画像生成において最先端の性能を達成しており(ゼロショットMS-COCO FID:4.88)、SFT段階を経た後には、言語誘導型画像編集から画像制御型生成・セグメンテーションに至るまで、従来にないレベルの制御性を示すことが確認された。