李飞飞与杨立昆为何不约而同押注“世界模型”?背后的愿景与路径有何不同?
“世界模型”(World Models)正成为AI领域最热门的关键词,但三位领军人物——李飞飞、杨立昆(Yann LeCun)和DeepMind——对这一概念的理解却截然不同,代表了三种截然不同的技术路径。 李飞飞与她的公司World Labs推出的Marble,是一种“多模态世界模型”:用户输入文字、图像或草图,系统即可在浏览器中生成可行走的3D场景。其核心技术是3D高斯点云(Gaussian Splatting),能快速生成高保真、可交互的3D资产。然而,Marble本质上是一个面向人类的3D内容生成工具,输出的是静态的3D资产,需导入Unity或Three.js等引擎渲染。它不涉及物理推理或智能体行为,更像一个“3D版的Stable Diffusion”,其“世界”是供人观看和编辑的视觉空间。 与之相反,杨立昆的“世界模型”构想根植于控制论与认知科学。他早在2022年就提出“自主机器智能路径”(A Path Towards Autonomous Machine Intelligence),主张AI应具备对世界状态的内部表征,能预测未来、推演因果。其核心是JEPA(联合嵌入预测架构)——不直接预测像素,而是学习隐藏状态的动态演化。这种“世界模型”不输出画面,而是作为智能体的“大脑”:在不依赖真实世界的情况下,进行“思考”和“试错”。它不为展示,而为决策服务。因此,当媒体称他将离职创办世界模型公司时,社区反应并非惊叹于新3D引擎,而是质疑Meta是否在放弃真正研究。 而DeepMind的Genie 3则走中间路线:它从文本生成连续、可交互的视频环境(720p/24fps),支持用户操控、事件触发(如“开始下雨”),物体跨帧持久存在,本质上是一个由AI驱动的虚拟仿真器。它既非静态资产,也非纯内部表征,而是让AI代理能在其中训练、试错、学习。正如《卫报》所言,这是机器人在真实世界前“训练于虚拟仓库与滑雪坡”的工具。 三者共享“世界模型”之名,却分别对应三种范式: 1. 界面型(Marble):为人类生成可交互的3D视觉世界; 2. 仿真型(Genie 3):为智能体构建可训练的动态虚拟环境; 3. 认知型(LeCun):为机器构建内部预测性世界表征。 李飞飞的愿景是“从语言走向世界”,强调空间智能与机器人感知;Marble目前仍是“第一步”,但尚未触及真正的“认知”;杨立昆则坚信,唯有具备内在世界模型的AI,才能走向通用智能;DeepMind则在实践中搭建桥梁——让AI先在虚拟世界中“学会走路”。 因此,当看到“世界模型”新闻时,不妨问三个问题: 它是否为人设计?输出是静态资产还是实时动态?若推倒一个虚拟花瓶,系统能否记住它? 若答案是“人类观看”“静态资产”“不记得”,那只是高级3D渲染工具;若答案是“智能体训练”“实时交互”“记得状态”,那才可能是真正的世界模型——一个尚未完全现身,却已在不同路径上悄然成型的未来。
