HyperAI

近年来，大语言模型（LLM）在生成能力上取得显著进展，但其本质仍局限于对文本片段的概率建模，缺乏对语言背后概念的深层理解。这一局限性在“反向推理”任务中尤为明显：模型能回答“A 的孩子是 B”，却难以反推“B 的父母是谁”，暴露出其在抽象关系建模上的不足。即便最新推理模型（LRM）在某些任务中表现优异，也常出现“推理路径错误但答案正确”的现象，反映出其泛化能力仍不可靠。针对这一核心挑战，黄海及其研究团队提出了一项创新性探索：将视觉领域成熟的自监督学习框架JEPA（Joint Embedding Predictive Architecture）引入大语言模型。JEPA的核心思想是通过低层特征抽象出高层概念，并让这些概念之间建立可预测的一致性关系。例如，“人脸”应自然预测“人手”而非“青蛙手”，这种基于语义合理性的约束，有助于模型构建更稳定、可解释的概念体系。研究团队首先从代码生成任务入手——将自然语言描述映射为正则表达式或SQL语句。这类任务具有明确的输入输出边界和对称性，非常适合验证JEPA的可行性。随后，研究扩展至通用任务：GSM8K（问题→解题过程）、NQ-Open（问题→答案）、HellaSwag（上文→下文），均取得显著提升，部分任务准确率提高超过20个百分点。令人振奋的是，该方法不仅提升了性能，还增强了模型的鲁棒性与抗过拟合能力。更关键的是，研究团队发现：无需在所有数据上运行JEPA，仅在25%的数据上应用该机制，即可几乎保持原有性能，同时将计算开销降低75%。这一高效实现为实际部署提供了可能。该工作已被NeurIPS的UniReps与DL4C研讨会接收，评审高度评价其新颖性、鲁棒性及应用潜力。其中两项反馈尤为深刻：一是“预测token”设计的巧妙性——团队未单独训练预测器，而是直接在文本末尾添加预测标记，利用模型原有的“前向预测后”的机制，意外避免了模式塌缩（mode collapse），并可复用预训练权重；二是嵌入空间分析结果：JEPA显著提升了嵌入空间的结构化程度，使其接近线性映射，暗示模型内部概念组织更加清晰，这可能是准确率与泛化能力提升的根源。尽管存在计算开销与大规模验证不足等批评，研究团队已在完整版本中规划改进方案。该方法可无缝集成至现有预训练与微调流程，兼具实用性与理论深度。黄海表示，这项工作的意义不仅在于性能提升，更在于推动构建真正“理解语言”的模型。他特别提及与Yann LeCun和Randall Balestriero的合作经历——两位自监督学习奠基者坚信，自监督学习是智能的核心原则，而JEPA正是这一理念的有力体现。此次实践让他深刻体会到“爱因斯坦式”研究的魅力：从原则出发，预测结果，并被实验逐一验证，这种可预见性令人着迷。未来，团队计划拓展JEPA至更多应用场景，并深入探究嵌入空间结构与模型性能之间的因果关系，寻找更高效、更本质的机制。这或许正是迈向真正理解型AI的关键一步。

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

研究团队基于第一性原理，用JEPA框架为大语言模型“理清”内部认知世界

الروابط ذات الصلة

Command Palette

研究团队基于第一性原理，用JEPA框架为大语言模型“理清”内部认知世界

الروابط ذات الصلة

Command Palette

研究团队基于第一性原理，用JEPA框架为大语言模型“理清”内部认知世界

الروابط ذات الصلة