HyperAI超神经

多智能体系统（MAS）为何频频失败？Google DeepMind在2025年底发布的论文《Towards a Science of Scaling Agent Systems》给出了关键答案：大多数失败源于陷入“17.2倍错误放大陷阱”的“袋装智能体”（Bag of Agents）模式。该研究通过大规模可控实验，揭示了构建高效MAS的核心科学规律，为工程师和数据科学家提供了可立即落地的实践指南。论文指出，MAS性能并非简单依赖“多即好”，而是由四大要素共同决定：数量（Quantity）、拓扑结构（Topology）、能力（Capability）与任务复杂度（Task Complexity）。若四者失衡，增加智能体只会放大噪声而非提升能力。研究发现，当单智能体基线性能超过45%时，再加智能体反而可能因协调开销导致性能下降，甚至出现高达17.2倍的错误放大。真正有效的系统必须打破“自由放任”的“袋装”模式。例如，AI开发工具Cursor在构建浏览器和代码迁移项目中，采用分层规划-执行架构，由一个核心规划者（Planner）统一调度多个工作者（Executor），实现可控分工与责任追踪，效果远优于无序协作的“蜂群”式设计。研究还发现，GPT-5.2在规划与执行任务中表现最优，凸显模型选型的重要性。论文提出了一个系统化的设计框架：将智能体分为10类核心角色——协调者、规划者、执行者、评估者、合成者、批评者、检索者、记忆者、中介者、监控者，并按功能划分为六大控制平面：管理、战略、上下文、执行、质量控制与冲突调解。这一结构如同企业组织架构，将混沌的“智能体群”转化为高可靠性的协作系统。关键启示在于：系统性能取决于“闭环反馈”而非“开环执行”。尤其是“评估→规划”反馈回路，能持续修正错误，防止逻辑链断裂。此外，工具设计也至关重要：检索工具防幻觉，测试框架防静默错误，预算监控防成本失控，权限控制防危险操作。研究还揭示了“协调税”（Coordination Tax）的存在：智能体越多，通信量呈近似n²增长，导致延迟和资源浪费。因此，应仅在任务具备高度并行性（如多源信息搜集）时才增加智能体；对于强依赖顺序的推理任务，多智能体反而有害。最终，DeepMind提出“45%规则”：只有当基础模型表现不佳（低于45%）时，多智能体系统才真正有价值。随着大模型能力持续提升，未来许多任务或可由单模型端到端完成，正如托尔金所言：“一个模型或许终将统御一切”。该研究标志着多智能体系统正从经验摸索迈向科学设计，其核心价值在于：用数据驱动替代盲目试错，用结构化拓扑替代混乱协作。掌握这一范式，将成为2026年AI工程的真正技术护城河。

相关链接

相关链接

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

Command Palette

多智能体系统崩溃真相：揭秘“智能体集合”中的17倍错误陷阱

相关链接

Command Palette

多智能体系统崩溃真相：揭秘“智能体集合”中的17倍错误陷阱

相关链接

Command Palette

多智能体系统崩溃真相：揭秘“智能体集合”中的17倍错误陷阱

相关链接

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答

字节开源 Lance，3B 模型包揽理解/生成/编辑；新加坡国立大学提出 ViMU 数据集：涵盖 588 个视频与无提示问答