HyperAI

美国西北大学博士生潘震宇及其团队近期在可信人工智能领域取得重要进展，提出两项基于强化学习（RL）的创新方法，分别在单模型与多智能体系统中实现推理性能与公平性、安全性的动态平衡。这两项研究虽路径不同，但均依托RL的探索优势，在复杂目标空间中寻找最优权衡点。在单模型场景中，团队提出FairReason框架，突破传统联合训练模式。不同于将推理与去偏作为同步目标进行优化，FairReason通过策略层在单一目标（如推理准确率或公平性）下自主试错，允许模型在不同数据配比中自由探索，从而发现更优的输出分布。该方法不依赖教师模型或严格标注，避免了对先验知识的过度依赖，有效缓解了模型偏差，同时保持了较高的推理能力。在多智能体系统中，团队开发了Evo-MARL框架，将任务正确性与安全防御力作为联合优化目标。该系统采用协同进化机制，动态生成新型攻击样本，持续挑战智能体的防御能力。通过KL正则化保障训练稳定性，并利用RL在多目标间灵活权衡，使智能体不仅能适应复杂任务需求，还能应对分布漂移与新型威胁。这一设计显著提升了模型在真实对抗环境中的鲁棒性与可靠性。研究的出发点源于对当前强化学习后训练趋势的反思：尽管RL能显著提升模型推理能力，但其训练过程的发散性可能加剧偏见或削弱安全性。团队通过系统性文献调研发现，社区缺乏对不同后训练策略（如监督微调、知识蒸馏、强化学习）在性能与公平性之间权衡关系的量化分析，也缺少实用指导以帮助开发者在资源有限条件下构建既高效又负责任的模型。为此，研究团队结合ICCV 2025“可信基础模型”研讨会的契机，设计了两条互补路径：FairReason聚焦单模型层面的公平性优化，Evo-MARL则探索多智能体环境下的安全内化机制。依托NVIDIA赞助的GPU云计算平台，团队完成了大规模训练与测试，并在红队-蓝队协同进化环境中验证了方法的有效性。整个研究由潘震宇带领两位实习生共同完成——复旦附中高二学生张予童与华南理工大学大四学生张义婷。尽管背景与年级差异显著，但两人展现出卓越的学习能力与执行力。在不足两周时间内，团队高效完成从实验设计、代码实现到结果分析与论文撰写全过程，经历高强度协作与快速迭代。尽管压力巨大，但团队默契配合，每次取得突破性进展时都充满成就感。未来，团队计划进一步扩展FairReason的适用范围，覆盖从轻量级到大模型的多种架构，探索在有限预算下的最优训练策略，力争总结出类似“scaling law”的可复用规律。在多智能体方向，将向异构型体系演进，支持角色、能力各异的智能体协同与对抗，更贴近真实复杂系统需求。这项工作不仅为可信AI的发展提供了新范式，也展现了年轻研究者在前沿科学探索中的巨大潜力。

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

西北大学团队用强化学习实现模型性能与公平性动态平衡

الروابط ذات الصلة

Command Palette

西北大学团队用强化学习实现模型性能与公平性动态平衡

الروابط ذات الصلة

Command Palette

西北大学团队用强化学习实现模型性能与公平性动态平衡

الروابط ذات الصلة