Nordwest-Universität: RL-Methoden balancieren Leistung und Fairness in KI-Modellen
美国西北大学博士生潘震宇及其团队在联合学习与可信人工智能领域取得重要突破,提出两种基于强化学习(RL)的新范式,分别在单模型与多智能体系统中实现推理性能与公平性/安全性的动态平衡。在名为 FairReason 的研究中,团队摒弃传统将推理与去偏作为联合目标的训练方式,转而利用 RL 策略层在单一目标下进行自由探索——即在仅优化推理准确率或仅缓解偏差的设定中,通过试错机制寻找最优输出分布,避免对教师模型或标注数据的严格拟合,从而在不牺牲性能的前提下有效降低模型偏见。该方法突破了传统后训练中“性能-公平”二元对立的局限,实现更灵活的权衡。 另一项研究 Evo-MARL 则将 RL 应用于多智能体系统,构建红队-蓝队协同进化的对抗环境。在此框架中,RL 代理同时优化任务正确性与安全防御能力,通过 KL 正则化保障训练稳定性,并引入动态演化的攻击池持续生成新型攻击,使系统能适应分布漂移。这种机制不仅增强了模型的鲁棒性,也推动了安全能力的内化,使智能体在复杂、变化的环境中实现多目标协同优化。 两项研究均以 RL 作为“探索者”角色,分别在静态与动态空间中寻找最优解。其研究动机源于对当前强化学习后训练趋势的反思:尽管 RL 被广泛用于提升模型推理能力,但其发散性训练可能加剧偏见或削弱安全性。团队通过系统性文献调研发现,社区缺乏对 SFT、KD、RL 等策略在推理与公平性之间权衡关系的定量分析,也无明确指导帮助开发者在资源有限时构建“既聪明又负责任”的模型。因此,研究结合 ICCV 2025 可信基础模型研讨会(Trustworthy FMs Workshop)的契机,分设两条互补路径,依托 NVIDIA 赞助的 GPU 云平台完成大规模实验验证。 令人瞩目的是,整个研究由潘震宇带领两位实习生——复旦附中高二学生张予童与华南理工大四学生张义婷——在不到两周内完成从设计、编码、测试到论文撰写的全流程。高强度协作下,团队每日调试、迭代、讨论,甚至通宵推进,最终高效产出高质量成果。这种跨背景、跨年级的深度合作,不仅体现了极强的执行力,也彰显了年轻研究者在前沿科技中的巨大潜力。 未来,团队计划在 FairReason 中拓展至多模型类型与参数规模,探索类似“scaling law”的数据与训练策略规律;在 Evo-MARL 方面,将向异构多智能体系统演进,支持不同能力与角色的智能体协同,以更真实地模拟复杂现实系统。这些工作为构建可信赖、可解释、可控制的下一代 AI 系统提供了关键路径。 业内专家评价,该研究标志着从“单一目标优化”向“多目标动态平衡”的范式跃迁,尤其在安全与公平的可内化方面具有开创性意义。潘震宇团队展现出的跨龄协作与快速迭代能力,也为科研人才培养提供了新范式。
