HyperAIHyperAI

Command Palette

Search for a command to run...

自己回帰的マルチモーダルモデルのスケーリング:事前学習とインストラクションチューニング

概要

本稿では、テキストおよび画像の両方の生成および補完が可能な、検索拡張型・トークンベース・デコーダー専用のマルチモーダル言語モデル「CM3Leon(読み:カメレオン)」を紹介する。CM3LeonはCM3マルチモーダルアーキテクチャを採用しているが、さらに多様な指示形式データを用いた大規模なスケーリングとチューニングによって、顕著な性能向上を達成している。これは、テキスト専用言語モデルの訓練手法をマルチモーダルモデルに適応した初のアプローチであり、大規模な検索拡張型事前学習ステージと、その後のマルチタスク教師あり微調整(SFT:Supervised Fine-Tuning)ステージを含む。また、汎用性の高いモデルとして、テキストから画像生成(text-to-image)および画像からテキスト生成(image-to-text)の両方に対応しており、高品質な出力を得るための自己完結型の対照的デコーディング手法を導入可能である。広範な実験により、本アプローチがマルチモーダルモデルにおいて極めて有効であることが示された。CM3Leonは、同等の手法と比較して5倍少ない学習計算資源で、テキストから画像生成において最先端の性能を達成しており(ゼロショットMS-COCO FID:4.88)、SFT段階を経た後には、言語誘導型画像編集から画像制御型生成・セグメンテーションに至るまで、従来にないレベルの制御性を示すことが確認された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています