Command Palette
Search for a command to run...
Gongfan Fang Xinyin Ma Xinchao Wang

摘要
近期,大规模视频生成模型展现出了强大的视觉能力,能够依据当前观测到的逻辑和物理线索预测未来帧。在本文中,我们探讨了是否可以通过将嵌入在视频帧中的视觉信号解读为指令,从而利用上述能力实现可控的图像生成视频(Image-to-Video)任务。我们将这种范式称为“视频内指令”(In-Video Instruction)。相比于本质上具有全局性且较为粗略的文本描述(即基于提示词的控制),“视频内指令”通过叠加文本、箭头或轨迹等元素,将用户的引导信息直接编码至视觉域中。这种方法通过为不同物体分配特定的指令,在视觉主体与其预期动作之间建立了明确、具备空间感知能力且无歧义的对应关系。我们在 Veo 3.1、Kling 2.5 和 Wan 2.2 这三个顶尖生成模型上进行了广泛实验。结果表明,视频模型能够可靠地解读并执行此类嵌入式视觉指令,这在复杂的多物体场景中表现尤为显著。