从婴儿掉勺子看懂AI:揭秘人工智能的早期学习机制
我们今天所构建的AI,很大程度上像一个从未真正体验过世界的孩子——它能背诵牛顿定律,却从未亲眼见过勺子从高脚椅上掉落。这种“观察世界”的原始方式,正是AI未来突破的关键。 Yann LeCun,Meta首席人工智能科学家、图灵奖得主,认为当前主流AI的根基存在根本缺陷。如今的大型语言模型(LLM)大多是“自回归”模型,即逐字预测下一个词。这看似智能,实则脆弱:每个预测都可能有微小误差,这些误差随输出长度指数级累积,最终导致“幻觉”——生成听起来合理却完全虚构的内容,比如引用根本不存在的法院判例。 更深层的问题在于,这些模型的学习材料只有文字。人类全部书面文本总量约10¹⁴字节,而一个四岁孩子仅通过视觉一年就接收10¹⁴到10¹⁵字节的信息。他们通过不断观察、试错,真正“理解”了重力、物体运动和因果关系。而AI却只在文字的二手描述中打转。 LeCun的愿景是:未来的AI不应从语言开始,而应从感知世界开始。就像婴儿在学会说话前就已理解“物体恒存”——一个玩具藏起来,它依然存在。AI也应先通过观看视频,建立对物理世界的内在模型,再学习语言来命名和交流。 这并非空想。Meta的V-JEPA 2已能通过观看视频学习物理规律,预测物体运动;苹果的SlowFast-LLaVA-1.5则能区分物体与运动,理解长视频中的动态逻辑。它们不是在“描述”世界,而是在“体验”世界。 这种“感官先行”的AI,将摆脱对文本的依赖,具备真正的常识和推理能力。它不是鹦鹉式模仿,而是像婴儿一样,通过一次次“掉落勺子”的实验,真正理解世界。 如果LeCun的判断正确,AI的下一阶段将不再是更大、更复杂的语言模型,而是能看、能感知、能预测的“世界模型”。这不仅是技术跃迁,更可能带来医学、气候、机器人等领域的突破性发现。 未来属于那些敢于放弃纯文本训练、拥抱多模态感知的团队。AI的进化,或许正始于一次小小的、重复的“勺子掉落”。
