強化学習で性能と公平性を自律最適化、西北大学が新アプローチを発表
アメリカ・ノースウェスタン大学の博士課程学生である潘震宇氏らの研究チームが、強化学習(RL)を活用した新たなアプローチにより、モデルの性能と公平性のバランスを自動的に最適化する技術を実現した。この研究は、従来の連合学習(Federated Learning)の枠組みを越え、モデルが自律的に多目標間のトレードオフを探索できる仕組みを構築した点で意義深い。 一つ目の研究「FairReason」では、単一モデル内で推論性能とバイアス低減という二つの目標を同時に最適化するのではなく、RLの戦略層が各目標ごとに自由に試行錯誤を行うことで、データ配分の変化に応じた最適な性能-公平性のバランス点を探索。教師モデルやラベルに過度に依存せず、柔軟な出力分布の形成を可能にした。 もう一つの研究「Evo-MARL」は、複数のエージェントが協働・競合する環境を想定。RLが「タスク正解率」と「セキュリティ防御力」の両方を同時に最適化する一方、KL正則化で学習の安定性を確保。さらに、攻撃者エージェントの集団が進化し続ける「協同進化型攻撃プール」を導入し、動的に変化する脅威環境でモデルの耐性を強化。これにより、分布シフトに対応する柔軟な適応力が得られた。 両研究の共通のキーポイントは、RLが「探索者」としての役割を果たした点。FairReasonでは、性能と公平性の最適な折衷点を探索し、Evo-MARLでは動的環境における安全・効率の最適解を発見した。 研究の発端は、RLによる推論能力向上の研究が急増する中で、その一方で偏見の拡大やセキュリティの低下といったリスクが無視されがちであることに着目した。このため、ICCV 2025の「Trustworthy FMs Workshop」を契機に、単一モデルと多エージェントシステムの両面からアプローチを分離。NVIDIAのGPUクラウド支援を受けて、大規模な訓練と検証を実施。特に、2週間の集中開発期間中に、高2の復旦附属中学校生・張予童さん、および华南理工大学の4年生・張義婷さんを含むチームが、実験設計から論文作成までを効率的に遂行。高負荷の開発サイクルでも協力体制が機能し、成果を迅速に生み出した。 今後は、小規模から大規模モデルまで広く適用可能なデータ戦略の定量化、および異種エージェントが共存するより複雑なマルチエージェント環境への拡張を計画。本研究は、AIの「知能」と「責任」を両立させるための実用的基盤を提供する重要な一歩である。
