DeepMind提出“帧链”理论:揭示Veo 3视频生成模型的通用智能潜力
Google DeepMind 最新研究揭示了生成式视频模型 Veo 3 在零样本学习与视觉推理方面的惊人潜力,提出“帧链”(Chain-of-Frames, CoF)这一新概念,作为视频模型实现通用智能的核心机制。该理论类比于大型语言模型中的“思维链”(Chain-of-Thought),旨在解释视频生成模型如何通过逐帧演进的方式,完成复杂视觉任务的多步规划与动态理解。 研究团队通过对超过18,000个生成视频的系统分析,发现 Veo 3 在未接受任何特定任务微调的情况下,能够自主完成从基础感知到高级推理的多样化任务。这一发现标志着生成式视频模型正从专用工具迈向通用视觉基础模型的转折点,正如大型语言模型曾重塑自然语言处理领域一般。 Veo 3 的能力被划分为四个层级:感知、建模、操控与推理。在感知层面,模型展现出对图像分割、边缘检测、关键点定位、超分辨率、去模糊和去噪等经典计算机视觉任务的零样本处理能力,表明其具备超越传统专用模型的泛化潜力。在建模层面,模型表现出对物理规律的深层理解——包括刚体与柔体运动、表面交互、浮力、空气阻力、光的折射与反射等。在“视觉叠叠乐”实验中,Veo 3 能合理模拟物体移除过程,体现其对动态物理系统的建模能力;同时也能理解物体功能,如判断哪些物品可被收纳。 在操控层面,Veo 3 可执行背景移除、风格迁移、图像上色、修复等编辑任务,并能根据手绘草图生成协调场景,或将自拍照转化为专业商务形象。更令人印象深刻的是,它能模拟复杂动作流程,如卷制墨西哥卷饼或让机器人手臂自然抓握锤子,展现出对空间关系与动作逻辑的精准把握。 而“帧链”机制的核心价值,体现在其推理能力上。在迷宫求解任务中,Veo 3 通过逐帧生成红色方块沿路径移动的过程,最终抵达终点,5×5迷宫的解决成功率高达78%,远超前代模型 Veo 2 的14%。与静态图像模型 Nano Banana 和语言模型 Gemini 2.5 Pro 的对比显示,图像模型难以处理过程性任务,语言模型虽擅长文本迷宫,却在图像理解上存在局限。这凸显了视频模型通过“帧链”实现逐步视觉推理的独特优势。 此外,Veo 3 还能完成视觉序列补全、颜色匹配、数独求解和对称性修复等任务。尽管当前性能仍落后于顶尖专用模型,但这一差距与早期 LLM(如 GPT-3)在通用性与精度之间的权衡高度相似。研究团队指出,随着算力优化与模型效率提升,视频生成的高成本问题有望像语言模型一样被逐步解决。历史数据显示,LLM 推理成本年均下降9至900倍,最终通用模型取代了大量专用系统。 综上,DeepMind 的研究不仅为视频生成模型赋予了“思维”能力,更预示着机器视觉正步入一个由通用基础模型主导的新时代。