HyperAI

李飞飞在近期接受Lenny's Podcast的深度访谈中，系统阐述了她对人工智能未来发展的核心思考。她指出，尽管大语言模型在文本生成方面取得突破，但当前AI最根本的短板并非算力或数据，而是缺乏空间智能——即理解、操作和预测三维物理世界的能力。这一观点，连同她联合创立的World Labs发布的全球首个生成式三维世界模型Marble，被广泛视为AI发展新阶段的标志。回望AI的复兴之路，李飞飞将起点定格在2012年ImageNet的突破。她本人早在2006年便着手构建这一包含1500万张图片、2.2万个类别的数据集，为深度学习的爆发奠定了基础。她强调，AI的真正驱动力并非算法本身，而是大规模、高质量的数据。然而，当语言模型成为主流后，她敏锐地意识到：仅靠语言和文本，AI无法真正“理解”世界。一个孩子能轻松数清房间里的椅子，而最先进的多模态模型却无法完成这一任务，这暴露出AI在空间感知、物理推理和动态交互上的严重缺失。她将空间智能定义为人类认知的核心能力，从接球、倒咖啡到发现DNA双螺旋结构，无一不依赖对三维空间的直觉与操控。而当前AI模型在距离判断、物体旋转、环境导航等任务上表现堪忧，生成的视频也常在几秒内失去连贯性。这正是她转向“世界模型”研究的动因。2024年，她与团队共同创立World Labs，推出Marble——一个能生成可自由探索、具有物理与几何一致性的三维世界模型。与传统视频生成不同，Marble输出的是可交互的三维环境，用户可自由移动、观察、操作，甚至导出特定视角的视频。 Marble的应用已超出想象。影视公司用它将虚拟制作效率提升40倍；游戏开发者将其作为VR内容的快速原型；心理学家用它构建沉浸式实验环境研究精神健康；机器人研究者则利用其生成大量合成训练数据，解决真实世界数据稀缺的难题。更令人振奋的是，有人希望用它辅助心理治疗，如恐高症的暴露疗法。李飞飞也直面“苦涩的教训”——即简单模型+海量数据终将胜出——在机器人领域的局限。她指出，语言模型的训练数据与输出高度对齐，而机器人需要的是三维空间中的动作，数据与目标严重错位。当前将世界切分为一维token的处理方式，使空间任务变得异常困难。世界模型的出现，正是为了解决这一“方钉圆孔”之困。她对“通用人工智能”（AGI）一词持审慎态度，认为其更像一个营销概念，而非科学定义。她强调，AI的真正目标是让机器像人一样思考和行动，而这一目标远未实现。即便提供所有历史数据，AI也难以复现牛顿或爱因斯坦的科学洞见。情感理解、情境共情、创造性推理，仍是AI的盲区。在她看来，AI的未来不在于“取代人”，而在于赋能人。无论你是教师、护士、农民还是艺术家，AI都应成为你能力的延伸。她呼吁社会每一个成员都应参与AI的讨论与塑造，因为技术的最终归宿是人。技术不应削弱人的尊严，而应增强人的能动性。AI的真正价值，不在于无限生产力，而在于让人类更自由、更富创造力地生活。

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

李飞飞再谈世界模型：AGI是营销术语，空间智能才是AI真正缺失的能力

الروابط ذات الصلة

Command Palette

李飞飞再谈世界模型：AGI是营销术语，空间智能才是AI真正缺失的能力

الروابط ذات الصلة

Command Palette

李飞飞再谈世界模型：AGI是营销术语，空间智能才是AI真正缺失的能力

الروابط ذات الصلة