HyperAI超神经

“世界模型”（World Models）正成为AI领域最热门的关键词，但三位领军人物——李飞飞、杨立昆（Yann LeCun）和DeepMind——对这一概念的理解却截然不同，代表了三种截然不同的技术路径。李飞飞与她的公司World Labs推出的Marble，是一种“多模态世界模型”：用户输入文字、图像或草图，系统即可在浏览器中生成可行走的3D场景。其核心技术是3D高斯点云（Gaussian Splatting），能快速生成高保真、可交互的3D资产。然而，Marble本质上是一个面向人类的3D内容生成工具，输出的是静态的3D资产，需导入Unity或Three.js等引擎渲染。它不涉及物理推理或智能体行为，更像一个“3D版的Stable Diffusion”，其“世界”是供人观看和编辑的视觉空间。与之相反，杨立昆的“世界模型”构想根植于控制论与认知科学。他早在2022年就提出“自主机器智能路径”（A Path Towards Autonomous Machine Intelligence），主张AI应具备对世界状态的内部表征，能预测未来、推演因果。其核心是JEPA（联合嵌入预测架构）——不直接预测像素，而是学习隐藏状态的动态演化。这种“世界模型”不输出画面，而是作为智能体的“大脑”：在不依赖真实世界的情况下，进行“思考”和“试错”。它不为展示，而为决策服务。因此，当媒体称他将离职创办世界模型公司时，社区反应并非惊叹于新3D引擎，而是质疑Meta是否在放弃真正研究。而DeepMind的Genie 3则走中间路线：它从文本生成连续、可交互的视频环境（720p/24fps），支持用户操控、事件触发（如“开始下雨”），物体跨帧持久存在，本质上是一个由AI驱动的虚拟仿真器。它既非静态资产，也非纯内部表征，而是让AI代理能在其中训练、试错、学习。正如《卫报》所言，这是机器人在真实世界前“训练于虚拟仓库与滑雪坡”的工具。三者共享“世界模型”之名，却分别对应三种范式： 1. 界面型（Marble）：为人类生成可交互的3D视觉世界； 2. 仿真型（Genie 3）：为智能体构建可训练的动态虚拟环境； 3. 认知型（LeCun）：为机器构建内部预测性世界表征。李飞飞的愿景是“从语言走向世界”，强调空间智能与机器人感知；Marble目前仍是“第一步”，但尚未触及真正的“认知”；杨立昆则坚信，唯有具备内在世界模型的AI，才能走向通用智能；DeepMind则在实践中搭建桥梁——让AI先在虚拟世界中“学会走路”。因此，当看到“世界模型”新闻时，不妨问三个问题：它是否为人设计？输出是静态资产还是实时动态？若推倒一个虚拟花瓶，系统能否记住它？若答案是“人类观看”“静态资产”“不记得”，那只是高级3D渲染工具；若答案是“智能体训练”“实时交互”“记得状态”，那才可能是真正的世界模型——一个尚未完全现身，却已在不同路径上悄然成型的未来。

相关链接

相关链接

相关链接

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

Command Palette

李飞飞与杨立昆为何不约而同押注“世界模型”？背后的愿景与路径有何不同？

相关链接

Command Palette

李飞飞与杨立昆为何不约而同押注“世界模型”？背后的愿景与路径有何不同？

相关链接

Command Palette

李飞飞与杨立昆为何不约而同押注“世界模型”？背后的愿景与路径有何不同？

相关链接

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间