HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

Optimisation préférentielle de Nash en multi-joueurs

Optimisation préférentielle de Nash en multi-joueurs

Résumé

L’apprentissage par renforcement à partir de feedback humain (RLHF) est devenu le paradigme standard pour aligner les grands modèles linguistiques (LLM) sur les préférences humaines. Toutefois, les méthodes fondées sur les récompenses, basées sur l’hypothèse de Bradley-Terry, peinent à capturer la nature non transitive et hétérogène des préférences réelles. Pour remédier à ce problème, des études récentes ont reformulé l’alignement comme un jeu à deux joueurs au sens de Nash, donnant naissance à l’apprentissage par renforcement à partir de feedback humain au sens de Nash (NLHF). Bien que cette perspective ait inspiré des algorithmes tels qu’INPO, ONPO et EGPO, offrant des garanties théoriques et empiriques solides, ces approches restent fondamentalement limitées aux interactions à deux joueurs, introduisant un biais vers un seul adversaire qui ne reflète pas pleinement la complexité des structures de préférences réalistes. Dans ce travail, nous introduisons Multiplayer Nash Preference Optimization (MNPO), un cadre novateur qui généralise le NLHF au régime à plusieurs joueurs. Il formule l’alignement comme un jeu à n joueurs, où chaque politique s’oppose à une population d’adversaires tout en étant régularisée vers un modèle de référence. Notre cadre établit des équilibres de Nash bien définis dans les contextes à plusieurs joueurs et étend le concept de « gap de dualité » afin de quantifier la qualité de l’approximation. Nous démontrons que MNPO hérite des garanties d’équilibre des méthodes à deux joueurs tout en permettant des dynamiques concurrentielles plus riches et une meilleure couverture des structures de préférences diversifiées. À travers une évaluation empirique approfondie, nous montrons que MNPO surpasse de manière cohérente les méthodes baselines NLHF existantes sur des benchmarks d’instruction suivie, atteignant une qualité d’alignement supérieure dans des conditions d’annotation hétérogènes et dans des scénarios d’évaluation mêlant différentes politiques. Ensemble, ces résultats établissent MNPO comme un cadre rigoureux et évolutif pour aligner les LLM sur des préférences humaines complexes et non transitives. Le code est disponible à l’adresse suivante : https://github.com/smiles724/MNPO.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Optimisation préférentielle de Nash en multi-joueurs | Articles de recherche | HyperAI