HyperAI超神经

我们今天所构建的AI，很大程度上像一个从未真正体验过世界的孩子——它能背诵牛顿定律，却从未亲眼见过勺子从高脚椅上掉落。这种“观察世界”的原始方式，正是AI未来突破的关键。 Yann LeCun，Meta首席人工智能科学家、图灵奖得主，认为当前主流AI的根基存在根本缺陷。如今的大型语言模型（LLM）大多是“自回归”模型，即逐字预测下一个词。这看似智能，实则脆弱：每个预测都可能有微小误差，这些误差随输出长度指数级累积，最终导致“幻觉”——生成听起来合理却完全虚构的内容，比如引用根本不存在的法院判例。更深层的问题在于，这些模型的学习材料只有文字。人类全部书面文本总量约10¹⁴字节，而一个四岁孩子仅通过视觉一年就接收10¹⁴到10¹⁵字节的信息。他们通过不断观察、试错，真正“理解”了重力、物体运动和因果关系。而AI却只在文字的二手描述中打转。 LeCun的愿景是：未来的AI不应从语言开始，而应从感知世界开始。就像婴儿在学会说话前就已理解“物体恒存”——一个玩具藏起来，它依然存在。AI也应先通过观看视频，建立对物理世界的内在模型，再学习语言来命名和交流。这并非空想。Meta的V-JEPA 2已能通过观看视频学习物理规律，预测物体运动；苹果的SlowFast-LLaVA-1.5则能区分物体与运动，理解长视频中的动态逻辑。它们不是在“描述”世界，而是在“体验”世界。这种“感官先行”的AI，将摆脱对文本的依赖，具备真正的常识和推理能力。它不是鹦鹉式模仿，而是像婴儿一样，通过一次次“掉落勺子”的实验，真正理解世界。如果LeCun的判断正确，AI的下一阶段将不再是更大、更复杂的语言模型，而是能看、能感知、能预测的“世界模型”。这不仅是技术跃迁，更可能带来医学、气候、机器人等领域的突破性发现。未来属于那些敢于放弃纯文本训练、拥抱多模态感知的团队。AI的进化，或许正始于一次小小的、重复的“勺子掉落”。

相关链接

相关链接

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

Command Palette

从婴儿掉勺子看懂AI：揭秘人工智能的早期学习机制

相关链接

Command Palette

从婴儿掉勺子看懂AI：揭秘人工智能的早期学习机制

相关链接

Command Palette

从婴儿掉勺子看懂AI：揭秘人工智能的早期学习机制

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化