李飞飞再谈世界模型:AGI是营销术语,空间智能才是AI真正缺失的能力
李飞飞在近期接受Lenny's Podcast的深度访谈中,系统阐述了她对人工智能未来发展的核心思考。她指出,尽管大语言模型在文本生成方面取得突破,但当前AI最根本的短板并非算力或数据,而是缺乏空间智能——即理解、操作和预测三维物理世界的能力。这一观点,连同她联合创立的World Labs发布的全球首个生成式三维世界模型Marble,被广泛视为AI发展新阶段的标志。 回望AI的复兴之路,李飞飞将起点定格在2012年ImageNet的突破。她本人早在2006年便着手构建这一包含1500万张图片、2.2万个类别的数据集,为深度学习的爆发奠定了基础。她强调,AI的真正驱动力并非算法本身,而是大规模、高质量的数据。然而,当语言模型成为主流后,她敏锐地意识到:仅靠语言和文本,AI无法真正“理解”世界。一个孩子能轻松数清房间里的椅子,而最先进的多模态模型却无法完成这一任务,这暴露出AI在空间感知、物理推理和动态交互上的严重缺失。 她将空间智能定义为人类认知的核心能力,从接球、倒咖啡到发现DNA双螺旋结构,无一不依赖对三维空间的直觉与操控。而当前AI模型在距离判断、物体旋转、环境导航等任务上表现堪忧,生成的视频也常在几秒内失去连贯性。这正是她转向“世界模型”研究的动因。2024年,她与团队共同创立World Labs,推出Marble——一个能生成可自由探索、具有物理与几何一致性的三维世界模型。与传统视频生成不同,Marble输出的是可交互的三维环境,用户可自由移动、观察、操作,甚至导出特定视角的视频。 Marble的应用已超出想象。影视公司用它将虚拟制作效率提升40倍;游戏开发者将其作为VR内容的快速原型;心理学家用它构建沉浸式实验环境研究精神健康;机器人研究者则利用其生成大量合成训练数据,解决真实世界数据稀缺的难题。更令人振奋的是,有人希望用它辅助心理治疗,如恐高症的暴露疗法。 李飞飞也直面“苦涩的教训”——即简单模型+海量数据终将胜出——在机器人领域的局限。她指出,语言模型的训练数据与输出高度对齐,而机器人需要的是三维空间中的动作,数据与目标严重错位。当前将世界切分为一维token的处理方式,使空间任务变得异常困难。世界模型的出现,正是为了解决这一“方钉圆孔”之困。 她对“通用人工智能”(AGI)一词持审慎态度,认为其更像一个营销概念,而非科学定义。她强调,AI的真正目标是让机器像人一样思考和行动,而这一目标远未实现。即便提供所有历史数据,AI也难以复现牛顿或爱因斯坦的科学洞见。情感理解、情境共情、创造性推理,仍是AI的盲区。 在她看来,AI的未来不在于“取代人”,而在于赋能人。无论你是教师、护士、农民还是艺术家,AI都应成为你能力的延伸。她呼吁社会每一个成员都应参与AI的讨论与塑造,因为技术的最终归宿是人。技术不应削弱人的尊严,而应增强人的能动性。AI的真正价值,不在于无限生产力,而在于让人类更自由、更富创造力地生活。
