通义深度研究:探索大模型背后的智能奥秘
阿里通义实验室近日发布其新一代智能体研究模型——通义DeepResearch,该模型在多项任务中表现超越OpenAI的o3和DeepResearch,引发广泛关注。令人惊叹的是,通义DeepResearch仅拥有300亿参数,每token激活30亿参数,而其开源竞争对手DeepSeek-v3.1参数高达6710亿,Kimi Researcher(基于Kimi v2)更是达到1万亿参数。如此小的规模为何能实现卓越性能?答案在于其创新的“合成数据训练”范式。 通义DeepResearch的核心突破在于将传统的ReAct推理框架升级为“迭代式深度研究范式”(Iterative Deep Research Paradigm),并充分利用大规模合成轨迹数据进行训练。这一策略在多篇论文中得到系统阐述,其中关键方法包括“持续预训练智能体”(AgentFounder)训练框架。 该框架分为两个阶段:第一阶段使用32K上下文长度进行预训练,第二阶段扩展至128K上下文长度,显著提升模型长序列理解与推理能力。为生成高质量的智能体训练数据,研究团队提出两种合成方法:一阶动作合成(FAS)与高阶动作合成(HAS)。 FAS通过“实体锚定”的知识表示方式,将信息与具体实体关联,例如“法国:2025年6月游客数量达422.2万”,构建多样化的问答数据集,突破传统“百科式”知识表达的局限。HAS则在每一步推理中,由大模型生成多个可能的决策候选路径,从而探索更丰富的推理可能性,同时保持最终决策的准确性,实现更全面的策略探索。 这些技术依托于“Webshaper”和“WebSailor-V2”等系列研究,通过信息搜索形式化与合成数据生成,结合可扩展强化学习,有效弥合了开源智能体与专有智能体之间的差距。通义DeepResearch的成功,标志着大模型训练正迈向以“合成数据+智能体迭代”为核心的新时代——未来,模型不再仅依赖真实世界数据,而是通过高度可控、可扩展的合成环境持续进化,实现更高效、更强大的推理能力。
