
摘要
大型语言模型(LLMs)从被动响应者向自主智能体的演进,要求学习范式发生根本性转变——即从静态模仿转向以激励驱动的决策机制。然而,这一转型在很大程度上受到缺乏可扩展基础设施的制约,而该基础设施本应能够构建高质量的交互信号,以支持有效的策略学习。为解决这一问题,我们提出了一种系统化方法,旨在全面扩展交互环境的多样性与复杂性。该方法通过三个相互独立的维度实现规模扩展:(1)复杂性:NexAU,一种灵活的智能体框架,可通过简单配置构建复杂的智能体层级结构;(2)多样性:NexA4A 能够从自然语言指令自动生成多样化的智能体层级结构,覆盖无限领域;(3)保真度:NexGAP 通过整合动态真实环境,弥合仿真与现实之间的差距,实现具有现实基础的轨迹合成。基于我们构建的多样化且复杂的交互环境,我们训练了 Nex-N1 模型。在 SWE-bench 和 tau2 等基准测试中的实证结果表明,Nex-N1 在复杂智能体任务上持续优于当前最先进的开源模型,并在性能上与前沿闭源模型相当。我们已开源 Nex 生态系统及模型权重,以推动相关领域的进一步研究。