Command Palette
Search for a command to run...
Optimisation directe des préférences avec hétérogénéité des préférences non observée : la nécessité des préférences ternaires
Keertana Chidambaram Karthik Vinary Seetharaman Vasilis Syrgkanis

Résumé
L’apprentissage par renforcement à partir de feedback humain (RLHF) est devenu central pour aligner les grands modèles linguistiques sur les valeurs humaines, en apprenant typiquement d’abord un modèle de récompense à partir de données de préférences, puis en utilisant ce modèle pour mettre à jour le modèle via l’apprentissage par renforcement. Des alternatives récentes, telles que l’Optimisation Directe des Préférences (DPO), simplifient cette chaîne en optimisant directement sur les préférences. Toutefois, ces deux approches supposent généralement que les évaluateurs humains partagent des préférences uniformes et s’appuient sur des comparaisons binaires, négligeant ainsi deux limites clés : la diversité des évaluateurs humains et les contraintes du feedback par paires. Dans ce travail, nous abordons ces deux problèmes. Premièrement, nous établissons un lien entre l’apprentissage des préférences dans le cadre du RLHF et la littérature d’économétrie, et montrons que les comparaisons binaires sont insuffisantes pour identifier les préférences latentes des utilisateurs à partir de données finies sur un nombre infini d’utilisateurs, tandis que les classements (même partiels) sur trois ou plusieurs réponses garantissent l’identifiabilité. Deuxièmement, nous proposons des méthodes pour intégrer des préférences hétérogènes dans les algorithmes d’alignement. Nous développons une adaptation de type Expectation-Maximization de DPO, qui permet de découvrir des types latents d’annotateurs et d’entraîner un mélange de modèles linguistiques (LLM) en conséquence. Ensuite, nous proposons un algorithme d’agrégation fondé sur un critère de justice basé sur le regret min-max, afin de produire une politique générative unique offrant des garanties équitables de performance. Ensemble, ces contributions établissent un cadre théorique et algorithmique pour la justice et la personnalisation face à une diversité d’utilisateurs dans l’alignement des modèles génératifs.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.