Command Palette
Search for a command to run...
自己回帰的マルチモーダルモデルのスケーリング:事前学習とインストラクションチューニング
自己回帰的マルチモーダルモデルのスケーリング:事前学習とインストラクションチューニング
概要
本稿では、テキストおよび画像の両方の生成および補完が可能な、検索拡張型・トークンベース・デコーダー専用のマルチモーダル言語モデル「CM3Leon(読み:カメレオン)」を紹介する。CM3LeonはCM3マルチモーダルアーキテクチャを採用しているが、さらに多様な指示形式データを用いた大規模なスケーリングとチューニングによって、顕著な性能向上を達成している。これは、テキスト専用言語モデルの訓練手法をマルチモーダルモデルに適応した初のアプローチであり、大規模な検索拡張型事前学習ステージと、その後のマルチタスク教師あり微調整(SFT:Supervised Fine-Tuning)ステージを含む。また、汎用性の高いモデルとして、テキストから画像生成(text-to-image)および画像からテキスト生成(image-to-text)の両方に対応しており、高品質な出力を得るための自己完結型の対照的デコーディング手法を導入可能である。広範な実験により、本アプローチがマルチモーダルモデルにおいて極めて有効であることが示された。CM3Leonは、同等の手法と比較して5倍少ない学習計算資源で、テキストから画像生成において最先端の性能を達成しており(ゼロショットMS-COCO FID:4.88)、SFT段階を経た後には、言語誘導型画像編集から画像制御型生成・セグメンテーションに至るまで、従来にないレベルの制御性を示すことが確認された。