DeepMind präsentiert „Frame Chain“: Veo 3 zeigt universelle visuelle Intelligenz
Google DeepMind 最新研究揭示了生成式视频模型 Veo 3 在零样本学习与视觉推理方面的突破性潜力,提出“帧链”(Chain-of-Frames, CoF)作为视频模型类比语言模型“思维链”(Chain-of-Thought, CoT)的核心机制。该研究通过对超过18,000个生成视频的系统分析,证明 Veo 3 在未进行任何任务微调的情况下,能够完成从基础感知到复杂动态推理的多样化任务,标志着生成式视频模型正迈向机器视觉领域的通用基础模型。研究论文《Video models are zero-shot learners and reasoners》指出,正如大型语言模型(LLM)通过大规模预训练实现了跨任务泛化,Veo 3 也展现出类似的“涌现能力”,其本质在于视频生成过程天然具备时间序列的逐步演化特性——即“帧链”:每一帧的生成都是对前一帧状态的逻辑延续,形成可视化的推理路径。 研究构建了四层能力评估框架:感知、建模、操控与推理。在感知层面,Veo 3 展现出无需显式训练即可完成图像分割、边缘检测、关键点定位、超分辨率、去模糊与去噪等经典视觉任务的能力,暗示未来可能替代多个专用模型。在建模层面,模型展现出对物理规律的深层理解,包括刚体与柔体运动、表面交互、浮力与空气阻力等,并能合理模拟“视觉叠叠乐”等动态场景。它还能识别物体功能(如可放入背包的物品),并保持跨时间与镜头变化的世界状态一致性。操控能力方面,Veo 3 可执行零样本图像编辑,如背景移除、风格迁移、图像上色与修复,甚至根据手绘草图生成协调场景或将自拍转化为专业头像。在推理层面,“帧链”机制尤为关键:在5×5迷宫求解任务中,Veo 3 成功率达78%(pass@10),远超前代模型Veo 2的14%。其通过逐帧生成红色方块沿路径移动的动态过程,实现从起点到终点的规划推理,而静态图像模型难以处理此类动态任务,语言模型则在图像输入理解上存在瓶颈。 研究还对比了 Nano Banana(图像模型)与 Gemini 2.5 Pro(语言模型),验证了视频模型在处理过程性任务上的独特优势。尽管当前Veo 3在多数任务上仍逊于专用模型,但这一差距与早期LLM(如GPT-3)与微调模型的差距相似。更重要的是,研究指出,生成视频的计算成本虽高,但参考LLM发展历史,其推理成本正以每年9至900倍的速度下降。这预示着通用视频模型将如LLM一样,最终凭借强大泛化能力与成本下降,取代大量专用视觉工具。 业内专家认为,该研究不仅是技术突破,更是一次范式跃迁。它确立了视频生成模型作为“视觉大脑”的潜力,推动计算机视觉从“任务导向”向“指令驱动”演进。DeepMind 作为全球领先的AI研究机构,长期致力于通用人工智能探索,其在语言、视觉与强化学习领域的协同布局,使Veo 3成为通往通用智能的重要一步。随着算力提升与训练效率优化,具备“帧链”能力的视频模型有望在医疗影像分析、自动驾驶模拟、虚拟助手交互等领域实现深度应用,开启人机交互的新篇章。