7日前
MagDiff:高忠実度動画生成および編集のためのマルチアライメント・ディフュージョン
Haoyu Zhao, Tianyi Lu, Jiaxi Gu, Xing Zhang, Qingping Zheng, Zuxuan Wu, Hang Xu, Yu-Gang Jiang

要約
拡散モデル(diffusion model)は、動画生成および動画編集の両分野で広く活用されている。各分野には固有のタスク特有の課題が存在するため、単一の拡散モデルで両タスクを同時に達成することは困難である。テキストプロンプトに依存する動画拡散モデルは、両タスクを統一的に扱う可能性を有しているが、テキストと画像の異種モダリティ間の高精度な整合性を確保する能力に欠けており、多様な整合性のずれ(misalignment)問題を引き起こす。本研究では、高忠実度の動画生成と動画編集の両タスクを統合的に処理可能な、初めてのマルチ整合拡散モデル「MagDiff」を提案する。提案手法MagDiffは、3種類の整合性機構を導入している。まず、主体駆動型整合(subject-driven alignment)は、画像プロンプトとテキストプロンプトのバランスを調整し、両タスクに共通する統一的な生成モデルの基盤を提供する。次に、適応的プロンプト整合(adaptive prompts alignment)は、同種および異種整合の各々の強みを強調するために、画像プロンプトとテキストプロンプトに異なる重みを割り当てることで、柔軟な整合性制御を実現する。さらに、高忠実度整合(high-fidelity alignment)は、主体画像を追加のモデル入力として取り入れることで、動画生成および編集の忠実度をさらに向上させる。4つのベンチマークにおける実験結果から、本手法は各タスクにおいて従来手法を上回る性能を示した。