HyperAI超神経
Back to Headlines

Google DeepMindの「Motion Prompting」がCVPR 2025で注目:動画生成を細かく制御する新技術

2ヶ月前

CVPR 2025で注目されたGoogle DeepMindの“Motion Prompting”論文:映像生成の制御を精密化 Google DeepMind、ミシガン大学、ブラウン大学の研究者が、「Motion Prompting」という新しい方法を開発しました。この手法は、特定の動き軌道を使用して動画生成を制御することで、映像のダイナミックな動きを精密に管理します。映像生成において、テキストプロンプトでは複雑な動きを正確に表現することが難しかった一方、「Motion Prompting」はユーザーが動かしたい部分の動きを直接定義できるため、より表現力豊かかつ意図的な映像コンテンツの作成が可能になります。 Motion Promptingの概要 この研究の核心は「motion prompt」です。時間的・空間的に疎または密に分布した動きの軌跡によって、あらゆる種類の動きを表すことが可能です。このフレキシブルな形式は、ほんの小さな髪の動きから複雑なカメラワークまで、さまざまな動きを捉えることができます。 研究チームは、強力な事前学習済みのビデオディフージョンモデル「Lumiere」の上にControlNetアダプターを訓練しました。このControlNetは、220万本の動画を内部データセットとして使用し、 BootstrAPアルゴリズムが抽出した詳細な動きトラックを用いて学習しました。これにより、モデルはさまざまな動きを生成し理解する能力を持ち、各タスクごとの特殊なエンジニアリングを必要としなくなりました。 Motion Prompt Expansion ユーザーが複雑なシーンの全ての動きを指定することは現実的ではありません。そこで研究者は「motion prompt expansion」というプロセスを開発しました。このシステムは単純なハイレベルのユーザ入力を、モデルが必要とする详细な半密な動きプロンプトに変換します。これにより、以下のような直感的な应用场景が実現しました: 画像とのインタラクティブな編集: ユーザーは静止画像上の物体をクリックしてドラッグするだけで、リアルな動画を生成できます。例えば、オウムの頭をドラッグして回转动かしたり、人の髪を「遊ばせたり」することができます。カーソルで砂を押すことで、砂がリアルに散らばる動きも自動的に生成されました。 オブジェクトおよびカメラコントロール: マウスの動きを幾何学的な primitive(例えば、見えない球体)の操作命令として解釈することで、細かな制御が実現します。猫の頭を正確に旋转させたり、最初のフレームからシーンの深度を見積もり、望ましいカメラパスを投影して複雑なカメラワークを生成することもできます。さらに、これらのプロンプトを組み合わせて、オブジェクトとカメラを同時にコントロールすることも可能になりました。 モーション転送: ソース動画から静止画の異なる主題へと動きを転送することができます。具体的には、人の頭の動きを静止画のマケッポに転送し、「操り人形」のように動物を動かすことが示されました。 テスト結果 研究チームは、 Image ConductorやDragAnythingなど、最近のモデルとの広範な定量的評価とヒューマンスタディを行い、比較しました。結果、 Motion Promptingのモデルは几乎所有の指標(画像品質:PSNR、SSIM、動きの精度:EPE)で基準モデルを上回りました。 ヒューマンスタディでも、 Motion Promptingによって生成された動画との他方法との比較で、参加者は一貫して Motion Promptingの結果を好んだと報告しています。理由として、動画命令へのより高い適合性、よりリアルistiックな動き、および全体的な視覚品質の向上が挙げられました。 制限と将来的な方向性 研究者は透明性を保っているため、系统的な制限点も公表しました。例えば、物体の特定部分が誤って背景に「ロック」されてしまうと、不自然な伸びや歪みが生じることがあります。しかし、これらの失敗は、 modeloが物理的世界を理解していない弱点を特定するために有用であると提案しています。 業界関係者のコメント 業界のエキスパートたちは、 Motion Promptingの潜在的な影響について楽観的です。「テクストプロンプトだけでは実現できなかった高度な動きを、単純なユーザーインターフェースでコントロールできる点は革命的だ」とのコメントが多く寄せられています。この技術が広く採用されることで、広告、映画、インタラクティブラートainmentなどの領域での革新的なコンテンツ制作が期待されています。 Google DeepMindは、人工知能の先端研究をリードする企業であり、特に深層学習と強化学習分野で多くの成果を上げています。

Related Links