4ヶ月前

CogView: Transformerを用いたテキストから画像生成の掌握

Ming Ding; Zhuoyi Yang; Wenyi Hong; Wendi Zheng; Chang Zhou; Da Yin; Junyang Lin; Xu Zou; Zhou Shao; Hongxia Yang; Jie Tang
CogView: Transformerを用いたテキストから画像生成の掌握
要約

一般領域におけるテキストから画像の生成は、強力な生成モデルとクロスモーダル理解を必要とする長年の未解決問題でした。本研究では、この問題を進展させるために40億パラメータを持つトランスフォーマーとVQ-VAEトークナイザーを使用したCogViewを提案します。また、スタイル学習、超解像、テキスト-画像ランキング、ファッションデザインなどの様々な下流タスクに対するファインチューニング戦略と、事前学習の安定化方法(例:NaNロスの除去)についても示しています。CogViewはぼかし処理されたMS COCOデータセットで最先端のFIDスコアを達成し、以前のGANベースのモデルや最近の類似研究DALL-Eを上回っています。