HyperAI超神经

美国南加州大学博士生杨威及其研究团队提出了一种全新的元策略协商框架（Meta-Policy Deliberation Framework, MPDF），旨在从根本上提升多智能体系统在大型语言模型（LLM）驱动下的自主性与适应性。当前多智能体系统虽在复杂任务中展现出“群体智慧”潜力，但仍受限于固定协作协议，难以实现真正动态、智能的协同。现有方法多依赖预设流程，如投票、辩论或工作流编排，导致系统易出现“话痨”“早锁定”或“反复摇摆”等问题，且在成本、稳定性和可解释性方面存在明显短板。为突破这些瓶颈，研究团队提出MPDF框架，赋予每个智能体学习“元策略”的能力，使其能基于自身与同伴的认知状态，自主决策在“坚持”“优化”和“让步”之间切换。这一设计使智能体从被动执行者转变为具备元认知能力的主动决策者，实现从“规则驱动”向“策略驱动”的跃迁。在训练层面，团队开发了稳健的强化学习算法SoftRankPO，通过将奖励映射为平滑的分位数信号，有效缓解了奖励尺度不一与长尾噪声带来的训练不稳问题。同时，引入基于差分共识的信用分配机制，将团队效用拆解为“个体自我改进增量”与“对最终共识的边际贡献”，显著提升系统可解释性，为优化与安全审计提供依据。实证研究显示，该框架在跨任务、跨模型场景中均表现出高鲁棒性与一致性。更关键的是，系统涌现出“策略性收敛”现象：智能体学会在高置信时保持沉默，仅在关键节点介入；少数派若推理逻辑自洽，可坚持观点并引导系统走向正确答案，有效避免“集体盲从”。在新药研发、机器人协同等高风险任务中，该机制能减少无效探索，提升决策效率与安全性。研究过程历经六阶段，从问题识别、原型搭建，到建模、可训练性验证、RL优化与实证分析。其中，强化学习训练的不稳定性曾是最大挑战，团队通过分位数优势与差分信用分配的双重改进，最终实现稳定收敛。未来，研究团队计划拓展框架的泛化能力，探索人机协同机制，研究智能体如何识别求助时机、如何从人类反馈中持续学习，推动多智能体系统真正融入真实社会场景。杨威本科毕业于华中科技大学，硕士就读于中国科学院自动化研究所，现为南加州大学计算机科学系博士生，研究方向聚焦生成式多智能体系统与多智能体强化学习。

相关链接

相关链接

相关链接

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

Command Palette

全新元策略协商框架问世，显著提升多智能体系统自主性与适应性

相关链接

Command Palette

全新元策略协商框架问世，显著提升多智能体系统自主性与适应性

相关链接

Command Palette

全新元策略协商框架问世，显著提升多智能体系统自主性与适应性

相关链接

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间