LeCun:大模型是死胡同,世界模型才是AI未来
在麻省理工学院生成式AI影响力联盟的研讨会上,Meta首席AI科学家、图灵奖得主杨立昆(Yann LeCun)再度抛出争议性观点:当前大语言模型(LLM)与人形机器人技术正陷入“死胡同”,真正的突破在于构建“世界模型”——一种基于自监督学习的、能够理解物理世界动态的通用智能架构。他指出,尽管LLM在文本生成上表现出色,但其训练数据量(如Llama 3的30万亿token)与一个四岁儿童通过视觉获取的信息量相当,却仍无法达到人类或猫类的智能水平。根本原因在于,LLM仅在离散、有限的文本数据上训练,而人类智能依赖于对高带宽感官数据(如视频)的持续学习。为此,LeCun长期推动“JEPA”(联合嵌入预测架构)研究,主张不重建像素,而是预测可预测的表征,从而在保留信息的同时剔除不可预测的细节。Meta的Dino和V-JEPA系统已证明,此类方法在图像与视频表征学习中表现优于生成式模型,甚至在无监督任务中超越监督学习。更关键的是,这些表征可被用于构建“世界模型”——能预测动作后果的内部动态模型。在机器人领域,该技术已实现零样本任务执行,无需强化学习或特定任务训练。LeCun强调,这种目标驱动的系统在设计上可嵌入“护栏”(如禁止伤害人类),从结构上保障安全,其理念类比于社会法律系统。他预测,未来三到五年内,世界模型将取代当前LLM成为AI主流架构,推动“机器人的十年”到来。然而,他同时批评当前人形机器人公司缺乏真正的智能基础,尚未掌握让机器人“足够聪明”的核心技术。他建议年轻研究者应专注量子力学、认知科学等基础领域,而非短期流行技术,因为真正的创新来自对根本问题的深入探索。 行业专家普遍认为,LeCun的观点虽具挑战性,但其对“世界模型”和自监督学习的坚持,正代表AI从“数据拟合”向“理解世界”的范式转变。Meta的FAIR实验室、纽约大学及蒙特利尔团队的实证研究,为JEPA路径提供了有力支持。尽管生成式模型在应用端仍占主导,但其在复杂物理推理、规划与泛化能力上的局限已日益凸显。LeCun的“非生成式”路径,或将成为下一代AI的基石。他本人作为连接主义的奠基者,其思想影响深远。Meta作为AI产业的领头羊,正从Llama的商业化转向更底层的智能架构探索。而其对“AI安全”的结构化设计思路,也为AI伦理提供了新范式。未来十年,AI的真正竞争,或将从模型规模转向对世界建模能力的深度突破。
