Command Palette

Search for a command to run...

7日前

MMaDA-Parallel:思考認識型編集・生成のためのマルチモーダル大規模拡散言語モデル

MMaDA-Parallel:思考認識型編集・生成のためのマルチモーダル大規模拡散言語モデル

要約

思考を意識した生成は、複雑なタスクにおける性能向上を目的としているが、本研究では、従来の逐次的かつ自己回帰的なアプローチが誤り伝播(error propagation)のため、逆に性能を低下させるという重要な失敗モードを特定した。この問題を体系的に分析するため、本文ではテキストおよび画像出力モダリティの両方を評価可能な新しいベンチマーク「ParaBench」を提案する。ParaBenchを用いた分析により、性能の低下が生成された推論内容と最終的な画像との間の整合性(alignment)の悪さと強く相関していることが明らかになった。この課題を解決するため、我々はテキストと画像の間で、全ノイズ除去軌道(denoising trajectory)にわたり連続的かつ双方向の相互作用を可能にする、並列型マルチモーダル拡散フレームワーク「MMaDA-Parallel」を提案する。MMaDA-Parallelは教師あり微調整(supervised fine-tuning)によって訓練された後、軌道上に沿って意味的報酬(semantic rewards)を適用する新規戦略「Parallel Reinforcement Learning(ParaRL)」によりさらなる最適化が行われる。実験結果から、本モデルがマルチモーダル整合性および意味的一貫性を顕著に改善し、最先端モデル「Bagel」に対してParaBenchにおけるOutput Alignmentで6.9%の向上を達成したことが確認された。これにより、思考を意識した画像生成のためのより堅牢なパラダイムが確立された。本研究のコードは、https://github.com/tyfeld/MMaDA-Parallel にてオープンソース化されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MMaDA-Parallel:思考認識型編集・生成のためのマルチモーダル大規模拡散言語モデル | 論文 | HyperAI超神経