HyperAI超神経
13時間前

X-Omni:強化学習が離散自己回帰型画像生成モデルを再び優れたものにした

Zigang Geng, Yibing Wang, Yeyao Ma, Chen Li, Yongming Rao, Shuyang Gu, Zhao Zhong, et al
X-Omni:強化学習が離散自己回帰型画像生成モデルを再び優れたものにした
要約

視覚コンテンツへの「次トークン予測」枠組みの拡張を図る試みは多数行われてきたが、画像生成と理解の両方を統一的なアプローチで実現することを目指している。しかしながら、離散トークンを用いた自己回帰モデルによる画像生成の試みは、視覚的忠実度の低さ、出力の歪み、複雑な指示に対する処理の失敗(特に詳細な描写の際)といった問題に直面しており、その原因は自己回帰推論過程における累積誤差や離散化プロセスに伴う情報損失が考えられる。この課題のため、最近の研究動向は、統一的なモデリングアプローチから離れ、画像生成を拡散モデル(diffusion)の目的関数と、言語生成を自己回帰的目標関数とを同時に学習するアプローチへと移行しつつある。本研究では、強化学習を活用することで、離散的自己回帰モデルの生成品質を著しく向上させ、アーティファクトを効果的に軽減できることを示す。これにより、画像生成と言語生成のシームレスな統合が可能となる。本研究で提案するフレームワークであるX-Omniは、意味的画像トークナイザー、言語および画像の両方を統一的に扱う自己回帰モデル、および画像生成用のオフライン拡散デコーダーから構成される。X-Omniは70億パラメータ規模の言語モデルを用いて、高い美術的品質を持つ画像を生成するとともに、指示の遵守能力および長文の描画能力に優れ、画像生成タスクにおいて最先端の性能を達成している。