17日前
Muse:マスク付き生成トランスフォーマーを用いたテキスト到画像生成
Huiwen Chang, Han Zhang, Jarred Barber, AJ Maschinot, Jose Lezama, Lu Jiang, Ming-Hsuan Yang, Kevin Murphy, William T. Freeman, Michael Rubinstein, Yuanzhen Li, Dilip Krishnan

要約
我々は、画像生成性能において最先端の水準を達成しつつ、従来の拡散モデルや自己回帰モデルよりも大幅に効率性が高いテキストから画像への変換を実現するTransformerモデル「Muse」を提案する。Museは、事前学習済みの大規模言語モデル(LLM)から抽出されたテキスト埋め込みを入力として、離散的なトークン空間におけるマスクモデル化タスクに基づいて学習される。具体的には、ランダムにマスクされた画像トークンを予測するように学習させる。ピクセル空間の拡散モデル(例:Imagen、DALL-E 2)と比較して、Museは離散トークンの使用と少ないサンプリングステップ数により、著しく高い効率性を実現している。また、自己回帰モデル(例:Parti)と比較しても、並列デコードを採用しているため、より高い効率性を有している。事前学習済みのLLMを活用することで、細粒度な言語理解が可能となり、物体、空間的関係、姿勢、数え上げ(基数)など視覚的概念の理解を高め、高精細な画像生成を実現している。9億パラメータのMuseモデルはCC3Mデータセットにおいて新たなSOTA(最先端)を達成し、FIDスコア6.06を記録した。また、30億パラメータのMuse 3Bモデルは、ゼロショット評価におけるCOCOデータセットでFIDスコア7.88、CLIPスコア0.32を達成した。さらに、モデルの微調整や逆問題の解決を必要とせずに、インペインティング(画像修復)、アウトペインティング(画像拡張)、マスクフリー編集といった複数の画像編集アプリケーションを直接実現可能である。詳細な結果は以下のURLにて公開されている:https://muse-model.github.io