17日前
PixArt-Σ:Diffusion Transformerを用いた4Kテキストto画像生成における弱い学習から強い学習への訓練
Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li

要約
本稿では、4K解像度の画像を直接生成可能なDiffusion Transformerモデル(DiT)であるPixArt-Σを紹介する。PixArt-Σは前駆モデルであるPixArt-αに対して顕著な進歩を遂げており、画像の忠実度が著しく向上するとともに、テキストプロンプトとの整合性も大幅に改善されている。PixArt-Σの重要な特徴の一つは、学習効率の高さである。PixArt-αの基礎的な事前学習を活用し、より高品質なデータを導入することで、「弱い」ベースラインから「強い」モデルへと進化させるという、我々が「弱いから強いへ(weak-to-strong)」と呼ぶプロセスを経て、モデルが向上している。PixArt-Σの進展は以下の2点に集約される。(1)高品質な学習データ:より優れた品質の画像データと、より正確かつ詳細な画像キャプションを組み合わせて使用している。(2)効率的なトークン圧縮:DiTフレームワーク内に新規のアテンションモジュールを提案し、キーおよび値の両方を圧縮することで、学習と推論の効率を大幅に向上させ、超高解像度画像の生成を可能にしている。これらの改善により、PixArt-Σは、従来のテキストから画像を生成する拡散モデル(SDXL:2.6Bパラメータ、SD Cascade:5.1Bパラメータ)と比較して、モデルサイズがはるかに小さく(0.6Bパラメータ)ながらも、優れた画像品質とプロンプトへの適合性を実現している。さらに、PixArt-Σが4K画像を生成できる能力は、高解像度のポスターおよび壁紙の作成を可能にし、映画やゲーム産業における高品質なビジュアルコンテンツ制作を効率的に支援する。