1ヶ月前

OmniInsert：拡散変換器モデルを用いた参照画像の自由なマスクフリー動画挿入

Jinshu Chen Xinghui Li Xu Bai Tianxiang Ma Pengze Zhang Zhuowei Chen Gen Li Lijie Liu Songtao Zhao Bingchuan Li

要約

拡散モデルを活用した動画挿入技術の最近の進展は非常に印象的である。しかし、既存の手法は複雑な制御信号に依存しており、被写体の一貫性を維持できず、実用性に制限がある。本論文では、マスク不要な動画挿入（Mask-free Video Insertion）を対象とし、データ不足、被写体とシーンのバランス、挿入の調和性という3つの重要な課題を解決することを目的とする。データ不足に対処するため、我々は自動的に多様なクロスペアデータを構築する新しいデータパイプライン「InsertPipe」を提案する。このデータパイプラインを基盤として、単一および複数の被写体参照からマスク不要な動画挿入を統合的に実現する新規フレームワーク「OmniInsert」を構築した。具体的には、被写体とシーンのバランスを維持するために、複数のソース条件を明確に注入するためのシンプルかつ効果的な「条件固有特徴注入（Condition-Specific Feature Injection）」機構を導入し、被写体とソース動画からの特徴注入のバランスを可能にする新しい「段階的訓練（Progressive Training）戦略」を提案する。同時に、被写体の詳細な外観を向上させるため、「被写体中心損失（Subject-Focused Loss）」を設計した。さらに、挿入の調和性を強化するために、人間の好みを模倣してモデルを最適化する「挿入的好み最適化（Insertive Preference Optimization）」手法を提案し、参照処理時にシーンに自然に溶け込むようにするための「文脈認識再表現モジュール（Context-Aware Rephraser）」を導入した。本分野におけるベンチマークの不足に対応するため、厳選された被写体と多様なシーンを備えた包括的なベンチマーク「InsertBench」を提案した。InsertBench上での評価結果から、OmniInsertは最先端の閉鎖型商用ソリューションを上回る性能を発揮することが示された。コードは公開予定である。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

OmniInsert：拡散変換器モデルを用いた参照画像の自由なマスクフリー動画挿入

Jinshu Chen Xinghui Li Xu Bai Tianxiang Ma Pengze Zhang Zhuowei Chen Gen Li Lijie Liu Songtao Zhao Bingchuan Li1 more

要約

AI で AI を構築

Hyper Newsletters

Jinshu Chen Xinghui Li Xu Bai Tianxiang Ma Pengze Zhang Zhuowei Chen Gen Li Lijie Liu Songtao Zhao Bingchuan Li