HyperAI超神经
Back to Headlines

CVPR 2025:Google DeepMind 推出“运动提示”技术,实现精准视频控制

9 days ago

在CVPR 2025大会上,Google DeepMind、密歇根大学和布朗大学的研究人员共同推出了一种名为“Motion Prompting”的新技术,该技术通过特定的运动轨迹来控制视频生成。这项创新解决了传统文本提示在描述复杂运动时的不足,为视频创作带来了前所未有的精确控制能力。 “Motion Prompting”利用了“运动提示”这一概念,即通过时空上的稀疏或密集的运动轨迹来表示任何类型的运动。用户可以简单地点击和拖动鼠标来定义物体或相机的运动路径,这大大提高了操作的直观性。例如,用户可以在一张静态图片中拖动一只鹦鹉的头,使其转向某个方向,模型会根据这些简单的动作生成真实的视频片段。 研究人员在Lumiere视频扩散模型的基础上训练了一个ControlNet适配器,后者基于一个包含220万条带有详细运动轨迹的数据集进行了训练。这种多样化的训练使得模型能够理解并生成各种复杂的运动,而无需为每个特定任务进行专门的调整。 为了简化用户的操作,研究人员开发了一种称为“运动提示扩展”的过程。系统能够将用户提供的高层次指令转化为模型所需的详细、半密集运动提示。例如,用户可以通过点击和拖动鼠标来实现图像中的对象移动,如转动一个人的头部或玩弄他的头发;也能通过估计场景的深度来生成复杂的相机运动,如环绕整个场景拍摄。此外,该技术还支持运动转移,即将源视频中的运动应用到另一个完全不同的主体上,比如将人的头部运动转移到一只猴子身上,实现“操纵”效果。 研究人员对“Motion Prompting”进行了广泛的定量评估和人类研究,将其与Image Conductor和DragAnything等近期模型进行了比较。结果显示,在图像质量(PSNR、SSIM)和运动准确性(EPE)等方面,新模型显著优于其他基线模型。人类研究也进一步验证了这一点,参与者普遍认为新模型生成的视频更符合运动指令,动作更自然,视觉效果更好。 尽管“Motion Prompting”展示了卓越的表现,但仍存在一些局限。例如,当部分对象错误地被锁定在背景上时,模型可能会产生不自然的拉伸效果。然而,研究人员认为这些失败为探索视频模型的内部机制提供了宝贵的机会,有助于识别其对物理世界的理解弱点。总体而言,这项研究标志着向创建真正互动和可控的生成视频模型迈出的重要一步。

Related Links