概要

現在の指示主導型動画編集モデルは、精密な意味的変更と忠実な動きの保持を同時に両立させることに課題を抱えています。既存のアプローチは、VLM 特徴量や構造的条件といった明示的な外部事前知識の注入に依存してこれらの課題を緩和しようとしていますが、この依存性がモデルの頑健性と汎化性能を著しく制限するボトルネックとなっています。この限界を克服するため、私たちは「SAMA（Semantic Anchoring and Motion Alignment の因子分解）」を提案します。SAMA は動画編集を「意味的アンカーリング（Semantic Anchoring）」と「動きモデル化（Motion Alignment）」に因子分解するフレームワークです。まず、意味的アンカーリングを導入し、疎なアンカーフレームにおいて意味トークンと動画潜在変数を連動して予測することで信頼性の高い視覚的アンカーを確立し、指示のみを考慮した構造的計画を可能にします。次に、動き中心の動画復元事前タスク（立方体のインペインティング、速度摂動、チューブシャッフル）に対して同一バックボーンを事前学習させる「動きアライメント」により、モデルが生動画から直接時間的ダイナミクスを内在化できるようにします。SAMA は二段階のパイプラインで最適化されます。第一段階は、対になった動画・指示編集データなしで本来的な意味・動き表現を学習する因子分解型事前学習段階であり、第二段階は対になった編集データを用いた教師あり微調整段階です。驚くべきことに、因子分解型事前学習のみであっても強力なゼロショット動画編集能力を発揮し、提案された因子分解の妥当性を実証しています。SAMA はオープンソースモデルの中で最先端の性能を達成し、Kling-Omni などの主要な商用システムと競争力のある結果を示しています。コード、モデル、データセットは公開予定です。

ソースPDF コードを表示