HyperAI超神经

研究人员基于第一性原理，尝试用JEPA（Joint Embedding Predictive Architecture）框架为大语言模型（LLM）构建更清晰的内部世界表征。尽管LLM近年来发展迅猛，但其本质仍停留在token层面的概率拟合，缺乏对语言概念的深层理解。典型问题如“reversal curse”——模型能回答“A的孩子是B”，却无法反推“B的父母是谁”，暴露出其在抽象推理和概念一致性上的缺陷。即便先进的推理模型（LRM）也常出现“推理过程错误但答案正确”的现象，说明其泛化能力受限。黄海团队提出一种新思路：将视觉领域成熟的JEPA架构迁移至LLM。JEPA的核心思想是通过低层特征抽象出高层概念，并让这些概念之间相互预测，以保证内在一致性。例如，“人脸”应更合理地预测“人手”而非“青蛙手”。研究从代码生成任务入手（如自然语言转正则表达式、SQL），因其语言与代码之间具有清晰对称性，适合验证JEPA机制。随后扩展至通用任务：GSM8K（问题预测解题过程）、NQ-Open（问题预测答案）、HellaSwag（上文预测下文），均实现准确率提升20%以上。关键突破在于效率优化：最初JEPA需额外一次前向传播，计算量翻倍。实验发现，仅在25%数据上启用JEPA，准确率几乎无损，计算开销却减少75%。该方法可无缝集成至预训练与微调流程，显著提升模型鲁棒性，有效对抗过拟合。该工作被NeurIPS的UniReps和DL4C研讨会接收。审稿人高度评价其新颖性、鲁棒性与应用潜力。其中两个亮点尤为突出：一是“预测token”设计，不单独训练预测器，而是在文本后添加预测token，利用模型原有的“前预测后”机制，意外避免了模式塌缩，且可复用预训练权重；二是embedding空间分析，发现JEPA使原本杂乱的向量空间变得结构清晰，近乎线性映射，暗示其正在“理顺”模型内部概念结构。研究团队也坦承不足：计算开销仍存，尚缺大规模验证。未来将拓展至更多任务场景，并深入探究JEPA如何影响模型内部机制，特别是embedding结构与泛化能力之间的因果关系。黄海表示，最难忘的是与Yann LeCun、Randall Balestriero等自监督学习先驱合作，验证“自监督是智能核心”这一原则。研究过程更像“爱因斯坦式”推导，而非工业界常见的“爱迪生式”试错，这种从原理出发、实验验证的路径，正是科研最动人的部分。

相关链接

相关链接

相关链接

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法

Command Palette

用JEPA揭示大模型内在世界：研究人员基于第一性原理理清LLM认知结构

相关链接

Command Palette

用JEPA揭示大模型内在世界：研究人员基于第一性原理理清LLM认知结构

相关链接

Command Palette

用JEPA揭示大模型内在世界：研究人员基于第一性原理理清LLM认知结构

相关链接

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法

30 分钟整合 550 篇文献，生物学多智能体 Robin 跑通自主科研闭环，挖掘 dAMD 候选疗法