17日前

コンテンツ豊富なテキストから画像生成への自己回帰モデルのスケーリング

Jiahui Yu, Yuanzhong Xu, Jing Yu Koh, Thang Luong, Gunjan Baid, Zirui Wang, Vijay Vasudevan, Alexander Ku, Yinfei Yang, Burcu Karagol Ayan, Ben Hutchinson, Wei Han, Zarana Parekh, Xin Li, Han Zhang, Jason Baldridge, Yonghui Wu

論文の詳細を見る

要約

我々は、高精細かつ写実的な画像の生成を可能にし、複雑な構成や世界知識を含む豊かなコンテンツを扱うことができる、パスウェイズ自己回帰型テキストから画像生成モデル（Parti）を提案する。Partiは、機械翻訳に類似したシーケンス・トゥ・シーケンスのモデリング問題としてテキストから画像生成を捉える。ただし、出力として他の言語のテキストトークンではなく、画像トークンのシーケンスを扱う点が特徴である。このアプローチにより、大規模言語モデルに関する豊富な先行研究の成果を自然に活用できる。近年、データ量およびモデル規模の拡大によって、大規模言語モデルの能力と性能は継続的に向上している。本研究のアプローチは単純である。まず、PartiはTransformerに基づく画像トークナイザであるViT-VQGANを用いて、画像を離散トークンのシーケンスに変換する。次に、エンコーダ・デコーダ型Transformerモデルを最大200億パラメータまでスケーリングすることで、一貫した品質向上を達成した。MS-COCOデータセットにおいて、ゼロショットFIDスコアは7.23、ファインチューニング後FIDスコアは3.22という、新記録を達成した。また、Localized NarrativesおよびPartiPrompts（P2）と呼ばれる、1600件以上の英語プロンプトを含む包括的なベンチマークを用いた詳細な分析により、Partiの多様なカテゴリおよび難易度にわたる有効性が実証された。さらに、モデルの限界についても検討し、今後の改善に向けた重点領域を明確に示した。高解像度画像の例は、https://parti.research.google/ にて確認可能である。