Command Palette
Search for a command to run...
Assaf Singer Noam Rotstein Amir Mann Ron Kimmel Or Litany

要約
拡散モデルを用いた動画生成は、現実的な動画の作成が可能である一方で、従来の画像やテキストによる条件付けでは、正確な運動制御が困難である。これまでの運動条件付き合成手法は、通常、モデル固有の微調整を必要とし、計算コストが高く、柔軟性に欠けるという課題があった。本研究では、画像から動画への拡散モデル(I2V)を用いた、運動および外観制御が可能な「トレーニング不要・即挿入型」のフレームワーク「Time-to-Move(TTM)」を提案する。本研究の核心的な洞察は、カットアンドドロップや深度ベースの再投影といった、ユーザーフレンドリーな操作によって得られる粗い参照アニメーションを活用することにある。SDEditが画像編集において粗いレイアウト情報を用いていることに着目し、本研究では粗いアニメーションを「粗い運動情報」として捉え、それを動画生成領域に適応した。外観は画像条件付けによって保持し、運動指定領域では強い整合性を保ちつつ、その他の領域では柔軟性を許容する「二時計型ノイズ除去(dual-clock denoising)」という領域依存戦略を導入することで、ユーザの意図に忠実な再現性と自然な動的挙動の両立を実現した。このサンプリングプロセスへの軽量な修正は、追加の学習や実行時コストを一切要せず、任意のバックボーンと互換性を持つ。オブジェクト運動およびカメラ運動のベンチマークにおける広範な実験の結果、TTMは既存のトレーニングベース手法と同等あるいはそれを上回るリアリズムと運動制御性能を達成した。さらに、TTMはテキストのみによるプロンプトでは到達できない限界を超えた、ピクセルレベルの条件付けによる正確な外観制御という独自の能力を実現している。動画サンプルおよびコードはプロジェクトページにて公開中:https://time-to-move.github.io/。