HyperAIHyperAI

Command Palette

Search for a command to run...

コンテンツ豊富なテキストから画像生成への自己回帰モデルのスケーリング

概要

我々は、高精細かつ写実的な画像の生成を可能にし、複雑な構成や世界知識を含む豊かなコンテンツを扱うことができる、パスウェイズ自己回帰型テキストから画像生成モデル(Parti)を提案する。Partiは、機械翻訳に類似したシーケンス・トゥ・シーケンスのモデリング問題としてテキストから画像生成を捉える。ただし、出力として他の言語のテキストトークンではなく、画像トークンのシーケンスを扱う点が特徴である。このアプローチにより、大規模言語モデルに関する豊富な先行研究の成果を自然に活用できる。近年、データ量およびモデル規模の拡大によって、大規模言語モデルの能力と性能は継続的に向上している。本研究のアプローチは単純である。まず、PartiはTransformerに基づく画像トークナイザであるViT-VQGANを用いて、画像を離散トークンのシーケンスに変換する。次に、エンコーダ・デコーダ型Transformerモデルを最大200億パラメータまでスケーリングすることで、一貫した品質向上を達成した。MS-COCOデータセットにおいて、ゼロショットFIDスコアは7.23、ファインチューニング後FIDスコアは3.22という、新記録を達成した。また、Localized NarrativesおよびPartiPrompts(P2)と呼ばれる、1600件以上の英語プロンプトを含む包括的なベンチマークを用いた詳細な分析により、Partiの多様なカテゴリおよび難易度にわたる有効性が実証された。さらに、モデルの限界についても検討し、今後の改善に向けた重点領域を明確に示した。高解像度画像の例は、https://parti.research.google/ にて確認可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています