HyperAIHyperAI

Command Palette

Search for a command to run...

研究团队基于第一性原理,用JEPA框架为大语言模型“理清”内部认知世界

近年来,大语言模型(LLM)在生成能力上取得显著进展,但其本质仍局限于对文本片段的概率建模,缺乏对语言背后概念的深层理解。这一局限性在“反向推理”任务中尤为明显:模型能回答“A 的孩子是 B”,却难以反推“B 的父母是谁”,暴露出其在抽象关系建模上的不足。即便最新推理模型(LRM)在某些任务中表现优异,也常出现“推理路径错误但答案正确”的现象,反映出其泛化能力仍不可靠。 针对这一核心挑战,黄海及其研究团队提出了一项创新性探索:将视觉领域成熟的自监督学习框架JEPA(Joint Embedding Predictive Architecture)引入大语言模型。JEPA的核心思想是通过低层特征抽象出高层概念,并让这些概念之间建立可预测的一致性关系。例如,“人脸”应自然预测“人手”而非“青蛙手”,这种基于语义合理性的约束,有助于模型构建更稳定、可解释的概念体系。 研究团队首先从代码生成任务入手——将自然语言描述映射为正则表达式或SQL语句。这类任务具有明确的输入输出边界和对称性,非常适合验证JEPA的可行性。随后,研究扩展至通用任务:GSM8K(问题→解题过程)、NQ-Open(问题→答案)、HellaSwag(上文→下文),均取得显著提升,部分任务准确率提高超过20个百分点。 令人振奋的是,该方法不仅提升了性能,还增强了模型的鲁棒性与抗过拟合能力。更关键的是,研究团队发现:无需在所有数据上运行JEPA,仅在25%的数据上应用该机制,即可几乎保持原有性能,同时将计算开销降低75%。这一高效实现为实际部署提供了可能。 该工作已被NeurIPS的UniReps与DL4C研讨会接收,评审高度评价其新颖性、鲁棒性及应用潜力。其中两项反馈尤为深刻:一是“预测token”设计的巧妙性——团队未单独训练预测器,而是直接在文本末尾添加预测标记,利用模型原有的“前向预测后”的机制,意外避免了模式塌缩(mode collapse),并可复用预训练权重;二是嵌入空间分析结果:JEPA显著提升了嵌入空间的结构化程度,使其接近线性映射,暗示模型内部概念组织更加清晰,这可能是准确率与泛化能力提升的根源。 尽管存在计算开销与大规模验证不足等批评,研究团队已在完整版本中规划改进方案。该方法可无缝集成至现有预训练与微调流程,兼具实用性与理论深度。 黄海表示,这项工作的意义不仅在于性能提升,更在于推动构建真正“理解语言”的模型。他特别提及与Yann LeCun和Randall Balestriero的合作经历——两位自监督学习奠基者坚信,自监督学习是智能的核心原则,而JEPA正是这一理念的有力体现。此次实践让他深刻体会到“爱因斯坦式”研究的魅力:从原则出发,预测结果,并被实验逐一验证,这种可预见性令人着迷。 未来,团队计划拓展JEPA至更多应用场景,并深入探究嵌入空间结构与模型性能之间的因果关系,寻找更高效、更本质的机制。这或许正是迈向真正理解型AI的关键一步。

الروابط ذات الصلة