Command Palette

Search for a command to run...

8日前

ノイズ除去から精緻化へ:視覚言語拡散モデルのための補正フレームワーク

Yatai Ji Teng Wang Yuying Ge Zhiheng Liu Sidi Yang Ying Shan Ping Luo

ノイズ除去から精緻化へ:視覚言語拡散モデルのための補正フレームワーク

要約

離散型拡散モデルは、双方向的文脈モデリングと理論的な並列化を可能にするという点で、視覚言語タスクにおいて有望な方向性として浮上している。しかし、実用化においては、訓練と推論の間に生じる乖離(train-inference discrepancy)という深刻な課題が大きな障壁となっており、これが災害的な誤りの連鎖(catastrophic error cascades)を引き起こす。具体的には、並列デコードの初期段階で生じたトークン誤りが生成文脈を汚染し、誤りが累積する連鎖反応を引き起こし、構文上の誤りや意味の幻覚(semantic hallucinations)を招く。この根本的な課題に対処するため、我々は生成プロセスを受動的なノイズ除去から能動的な精練(refining)へと再定式化した。そこで、モデル自身が誤りを識別し修正できるように学習させる「ReDiff」という精練強化型拡散フレームワークを提案する。本手法は二段階の学習プロセスを特徴とする。第一段階では、合成された誤りを修正する能力を基礎的に習得させるために、モデルを合成誤りの修正に訓練する。第二段階では、新たなオンライン自己修正ループを実装し、モデルが専門家による修正例から学ぶことで、自身の不完全なドラフトを修正する能力を明示的に学習させる。この誤り駆動型学習により、モデルはすでに生成された出力を再検討し、精練するという重要な能力を獲得し、誤りの連鎖を効果的に断ち切ることが可能になる。広範な実験の結果、ReDiffは生成コンテンツの整合性と事実的正確性を顕著に向上させ、従来のノイズ除去手法に比べてはるかに安定的かつ効率的な並列生成を実現することを示した。本研究のコードおよびモデルは、https://rediff-hku.github.io/ にて公開されている。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ノイズ除去から精緻化へ:視覚言語拡散モデルのための補正フレームワーク | 論文 | HyperAI超神経