DeepMind提出“帧链”理论,揭开Veo 3视频生成模型的通用智能之谜
Google DeepMind近日发表论文,提出生成式视频模型Veo 3具备“零样本学习”与“视觉推理”能力,并首次引入“帧链”(Chain-of-Frames, CoF)这一概念,类比于大型语言模型中的“思维链”(Chain-of-Thought, CoT)。该研究通过对超过18,000个生成视频的系统分析,揭示了视频模型在无需任务微调的情况下,能够完成从基础感知到复杂推理的多样化视觉任务,标志着生成式视频正迈向机器视觉领域的通用基础模型。 论文指出,与NLP领域从专用模型向统一LLM演进类似,当前计算机视觉仍处于任务割裂阶段,如YOLO用于目标检测、Segment Anything用于图像分割,缺乏一个能通过提示解决开放式视觉问题的通用模型。DeepMind认为,正是在大规模数据上训练大型生成模型这一机制,使得Veo 3展现出类似LLM的“涌现”能力。 “帧链”是该研究的核心创新。视频生成本质上是逐帧施加时空变化的过程,天然具备分步推理的结构。Veo 3通过连续生成具有逻辑关联的视频帧,实现对复杂任务的逐步求解,例如在迷宫任务中,模型以红色方块沿路径移动的方式,逐步推进至终点,5x5网格迷宫成功率高达78%,远超前代Veo 2的14%。 研究构建了四层能力框架:感知层面,Veo 3可完成图像分割、边缘检测、关键点定位、超分辨率、去模糊与去噪等任务;建模层面,具备对刚体与柔体运动、浮力、空气阻力、折射反射等物理规律的理解,能合理模拟“视觉叠叠乐”等动态场景;操控层面,支持背景移除、风格迁移、图像修复、涂鸦编辑与物体合成,甚至可演示卷墨西哥卷、机器人抓锤等灵巧操作;推理层面,则能完成迷宫求解、数独、颜色匹配、对称补全等需要多步逻辑的视觉任务。 对比实验显示,静态图像模型难以处理过程性任务,而语言模型虽能解文本迷宫,但对图像输入理解有限。这凸显了视频模型通过“帧链”进行逐步视觉推理的独特优势。 尽管目前Veo 3在部分任务上仍不及专用模型,且生成成本较高,但研究指出,这与LLM早期发展轨迹相似。历史表明,通用模型的推理成本正以每年9至900倍的速度下降,最终取代大量专用模型。DeepMind认为,生成式视频模型正沿着与LLM相同的路径前进,未来有望成为视觉智能的通用基础。