3ヶ月前

拡散モデル

アプローチ／フレームワーク

Ye Tian Ling Yang Jiongfan Yang Anran Wang Yu Tian Jiani Zheng Haochen Wang Zhiyang Teng Zhuochen Wang Yinjie Wang

概要

思考を意識した生成は、複雑なタスクにおける性能向上を目的としているが、本研究では、従来の逐次的かつ自己回帰的なアプローチが誤り伝播（error propagation）のため、逆に性能を低下させるという重要な失敗モードを特定した。この問題を体系的に分析するため、本文ではテキストおよび画像出力モダリティの両方を評価可能な新しいベンチマーク「ParaBench」を提案する。ParaBenchを用いた分析により、性能の低下が生成された推論内容と最終的な画像との間の整合性（alignment）の悪さと強く相関していることが明らかになった。この課題を解決するため、我々はテキストと画像の間で、全ノイズ除去軌道（denoising trajectory）にわたり連続的かつ双方向の相互作用を可能にする、並列型マルチモーダル拡散フレームワーク「MMaDA-Parallel」を提案する。MMaDA-Parallelは教師あり微調整（supervised fine-tuning）によって訓練された後、軌道上に沿って意味的報酬（semantic rewards）を適用する新規戦略「Parallel Reinforcement Learning（ParaRL）」によりさらなる最適化が行われる。実験結果から、本モデルがマルチモーダル整合性および意味的一貫性を顕著に改善し、最先端モデル「Bagel」に対してParaBenchにおけるOutput Alignmentで6.9%の向上を達成したことが確認された。これにより、思考を意識した画像生成のためのより堅牢なパラダイムが確立された。本研究のコードは、https://github.com/tyfeld/MMaDA-Parallel にてオープンソース化されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

3ヶ月前

拡散モデル

アプローチ／フレームワーク

Ye Tian Ling Yang Jiongfan Yang Anran Wang Yu Tian Jiani Zheng Haochen Wang Zhiyang Teng Zhuochen Wang Yinjie Wang

概要

思考を意識した生成は、複雑なタスクにおける性能向上を目的としているが、本研究では、従来の逐次的かつ自己回帰的なアプローチが誤り伝播（error propagation）のため、逆に性能を低下させるという重要な失敗モードを特定した。この問題を体系的に分析するため、本文ではテキストおよび画像出力モダリティの両方を評価可能な新しいベンチマーク「ParaBench」を提案する。ParaBenchを用いた分析により、性能の低下が生成された推論内容と最終的な画像との間の整合性（alignment）の悪さと強く相関していることが明らかになった。この課題を解決するため、我々はテキストと画像の間で、全ノイズ除去軌道（denoising trajectory）にわたり連続的かつ双方向の相互作用を可能にする、並列型マルチモーダル拡散フレームワーク「MMaDA-Parallel」を提案する。MMaDA-Parallelは教師あり微調整（supervised fine-tuning）によって訓練された後、軌道上に沿って意味的報酬（semantic rewards）を適用する新規戦略「Parallel Reinforcement Learning（ParaRL）」によりさらなる最適化が行われる。実験結果から、本モデルがマルチモーダル整合性および意味的一貫性を顕著に改善し、最先端モデル「Bagel」に対してParaBenchにおけるOutput Alignmentで6.9%の向上を達成したことが確認された。これにより、思考を意識した画像生成のためのより堅牢なパラダイムが確立された。本研究のコードは、https://github.com/tyfeld/MMaDA-Parallel にてオープンソース化されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

MMaDA-Parallel：思考認識型編集・生成のためのマルチモーダル大規模拡散言語モデル | 記事 | HyperAI超神経