概要

一般領域におけるテキストから画像の生成は、強力な生成モデルとクロスモーダル理解を必要とする長年の未解決問題でした。本研究では、この問題を進展させるために40億パラメータを持つトランスフォーマーとVQ-VAEトークナイザーを使用したCogViewを提案します。また、スタイル学習、超解像、テキスト-画像ランキング、ファッションデザインなどの様々な下流タスクに対するファインチューニング戦略と、事前学習の安定化方法（例：NaNロスの除去）についても示しています。CogViewはぼかし処理されたMS COCOデータセットで最先端のFIDスコアを達成し、以前のGANベースのモデルや最近の類似研究DALL-Eを上回っています。

ソースPDF