Command Palette
Search for a command to run...

要約
思考を意識した生成は、複雑なタスクにおける性能向上を目的としているが、本研究では、従来の逐次的かつ自己回帰的なアプローチが誤り伝播(error propagation)のため、逆に性能を低下させるという重要な失敗モードを特定した。この問題を体系的に分析するため、本文ではテキストおよび画像出力モダリティの両方を評価可能な新しいベンチマーク「ParaBench」を提案する。ParaBenchを用いた分析により、性能の低下が生成された推論内容と最終的な画像との間の整合性(alignment)の悪さと強く相関していることが明らかになった。この課題を解決するため、我々はテキストと画像の間で、全ノイズ除去軌道(denoising trajectory)にわたり連続的かつ双方向の相互作用を可能にする、並列型マルチモーダル拡散フレームワーク「MMaDA-Parallel」を提案する。MMaDA-Parallelは教師あり微調整(supervised fine-tuning)によって訓練された後、軌道上に沿って意味的報酬(semantic rewards)を適用する新規戦略「Parallel Reinforcement Learning(ParaRL)」によりさらなる最適化が行われる。実験結果から、本モデルがマルチモーダル整合性および意味的一貫性を顕著に改善し、最先端モデル「Bagel」に対してParaBenchにおけるOutput Alignmentで6.9%の向上を達成したことが確認された。これにより、思考を意識した画像生成のためのより堅牢なパラダイムが確立された。本研究のコードは、https://github.com/tyfeld/MMaDA-Parallel にてオープンソース化されている。