
要約
我々は、動画生成モデルに動き制御機能を導入するシンプルかつスケーラブルなフレームワーク「Wan-Move」を提案する。既存の動き制御可能な手法は、通常、制御の粒度が粗く、スケーラビリティに限界があるため、実用的な出力にはほど遠いものとなっている。本研究では、精密かつ高品質な動き制御を実現することで、このギャップを縮小する。その核心的なアイデアは、元の条件特徴量を直接「動きに敏感な状態」にすることで、動画合成を効果的にガイドすることにある。具体的には、物体の動きを高密度な点軌道(dense point trajectories)で表現し、シーン全体における細かい動き制御を可能にする。次に、これらの軌道を潜在空間(latent space)に射影し、最初のフレームの特徴量を各軌道に沿って伝搬させることで、各シーン要素がどのように動くべきかを示す整合された時空間特徴マップを生成する。この特徴マップを更新された潜在条件として用い、既存の画像から動画へのモデル(例:Wan-I2V-14B)に自然に統合することで、アーキテクチャの変更なしに動きガイドとして機能させる。これにより、補助的な動きエンコーダの必要性が排除され、ベースモデルのファインチューニングも容易にスケーラブルとなる。スケーリングされた学習により、Wan-Moveは5秒間、480p解像度の動画を生成可能であり、ユーザー調査の結果、Kling 1.5 Proの商用「Motion Brush」機能と同等の動き制御性能を達成している。包括的な評価を可能にするために、さらに多様なコンテンツカテゴリとハイブリッド検証付きのアノテーションを備えた「MoveBench」という厳密に構築されたベンチマークを設計した。このベンチマークは、より大きなデータ量、より長い動画長、そして高品質な動きアノテーションという特徴を持つ。MoveBenchおよび公開データセットにおける広範な実験により、Wan-Moveが優れた動き品質を示すことが一貫して確認された。コード、モデル、ベンチマークデータはすべて公開されている。