Command Palette
Search for a command to run...

要約
拡散モデルを活用した動画挿入技術の最近の進展は非常に印象的である。しかし、既存の手法は複雑な制御信号に依存しており、被写体の一貫性を維持できず、実用性に制限がある。本論文では、マスク不要な動画挿入(Mask-free Video Insertion)を対象とし、データ不足、被写体とシーンのバランス、挿入の調和性という3つの重要な課題を解決することを目的とする。データ不足に対処するため、我々は自動的に多様なクロスペアデータを構築する新しいデータパイプライン「InsertPipe」を提案する。このデータパイプラインを基盤として、単一および複数の被写体参照からマスク不要な動画挿入を統合的に実現する新規フレームワーク「OmniInsert」を構築した。具体的には、被写体とシーンのバランスを維持するために、複数のソース条件を明確に注入するためのシンプルかつ効果的な「条件固有特徴注入(Condition-Specific Feature Injection)」機構を導入し、被写体とソース動画からの特徴注入のバランスを可能にする新しい「段階的訓練(Progressive Training)戦略」を提案する。同時に、被写体の詳細な外観を向上させるため、「被写体中心損失(Subject-Focused Loss)」を設計した。さらに、挿入の調和性を強化するために、人間の好みを模倣してモデルを最適化する「挿入的好み最適化(Insertive Preference Optimization)」手法を提案し、参照処理時にシーンに自然に溶け込むようにするための「文脈認識再表現モジュール(Context-Aware Rephraser)」を導入した。本分野におけるベンチマークの不足に対応するため、厳選された被写体と多様なシーンを備えた包括的なベンチマーク「InsertBench」を提案した。InsertBench上での評価結果から、OmniInsertは最先端の閉鎖型商用ソリューションを上回る性能を発揮することが示された。コードは公開予定である。