HyperAIHyperAI

Command Palette

Search for a command to run...

Nouvelle approche de l’apprentissage fédéré par renforcement : des modèles autonomes pour équilibrer performance, équité et sécurité

Une équipe de l’Université Northwestern aux États-Unis, menée par le doctorant Pan Zhenyu, a franchi une nouvelle étape dans le domaine de l’apprentissage par renforcement (RL) appliqué aux modèles d’intelligence artificielle, en proposant une approche innovante pour équilibrer de manière autonome performance et équité. Ces travaux, menés en parallèle dans deux directions complémentaires, explorent comment le RL peut agir comme un « explorateur » intelligent dans des espaces à multiples objectifs, permettant aux modèles de s’adapter dynamiquement tout en préservant leur fiabilité. Dans le cadre de FairReason, le projet se concentre sur un modèle unique où le RL n’apprend pas simultanément la précision de raisonnement et la réduction des biais comme une tâche unique. Au lieu de cela, il utilise une couche de stratégie pour explorer librement différents équilibres entre ces deux objectifs, en testant diverses combinaisons de données sans être contraint de reproduire strictement les sorties d’un modèle enseignant ou les annotations humaines. Cette flexibilité permet de découvrir des distributions de sortie optimales, où la performance reste élevée tout en réduisant les biais systémiques. Dans le second volet, Evo-MARL, le cadre est plus complexe : il s’agit d’un système multi-agents où le RL optimise simultanément deux objectifs critiques — la précision des tâches et la résilience face aux attaques — tout en maintenant la stabilité grâce à une régularisation KL. Une innovation clé réside dans l’intégration d’un « pool d’attaques évolutives », qui génère continuellement de nouveaux types d’attaques pour simuler un environnement en constante évolution. Ainsi, les agents apprennent non seulement à performer, mais aussi à s’adapter à des menaces inédites, renforçant ainsi leur robustesse. Ces deux approches, bien qu’elles partent de contextes différents, partagent une même idée fondamentale : le RL sert ici à explorer de manière autonome l’espace des compromis entre objectifs concurrents, en s’affranchissant des contraintes rigides de l’entraînement classique. Cette vision émergente a été motivée par une préoccupation croissante : si l’entraînement par renforcement améliore fortement les capacités de raisonnement des modèles, pourrait-il aussi exacerber les biais ou affaiblir leur sécurité ? Une revue rapide de la littérature a révélé un vide critique : aucune analyse systématique n’existait sur les compromis entre les différentes stratégies de post-entraînement (SFT, KD, RL) en termes de performance et d’équité. C’est dans ce contexte que le projet s’est structuré autour de deux axes complémentaires, soutenus par une infrastructure cloud GPU financée par NVIDIA. Les expérimentations ont été menées dans un cadre de « rouge contre bleu » collaboratif, où les agents attaquaient et défendaient simultanément, validant ainsi l’efficacité des stratégies de sécurité intégrées. Le projet a été réalisé en seulement deux semaines par Pan Zhenyu et deux stagiaires — Zhang Yutong, lycéenne de terminale au collège affilié à l’Université Fudan, et Zhang Yiting, étudiante en dernière année à l’Université de technologie du sud de la Chine. Malgré leurs parcours très différents, leurs compétences exceptionnelles et leur capacité à collaborer sous pression ont permis de mener à bien l’ensemble du cycle : conception expérimentale, implémentation, analyse et rédaction de la publication. Les résultats obtenus ouvrent la voie à des recherches futures : sur le plan théorique, l’équipe souhaite étendre les expérimentations à une plus grande diversité de modèles (de petite à grande échelle) afin de dégager des règles empiriques proches des lois d’échelle (scaling laws), utiles pour les développeurs. Sur le plan architectural, elle envisage de passer à des systèmes multi-agents hétérogènes, où des agents aux rôles et capacités variés interagissent dans des environnements complexes, plus proches des systèmes réels. Ces travaux, présentés dans deux prépublications sur arXiv et préparés pour le workshop Trustworthy FMs à ICCV 2025, marquent une avancée significative vers des IA plus intelligentes, plus équitables et plus sûres.

Liens associés

Nouvelle approche de l’apprentissage fédéré par renforcement : des modèles autonomes pour équilibrer performance, équité et sécurité | Articles tendance | HyperAI