MaPPO : Optimisation des préférences par maximum a posteriori avec connaissance a priori
Alors que s’ouvre l’ère des grands modèles linguistiques (LLM) au service des utilisateurs, les méthodes d’optimisation des préférences (Preference Optimization, PO) se sont imposées comme une approche centrale pour aligner les LLM sur les préférences humaines et améliorer leurs performances. Nous proposons Maximum a Posteriori Preference Optimization (MaPPO), un cadre d’apprentissage à partir de préférences qui intègre explicitement des connaissances a priori sur la récompense dans l’objectif d’optimisation. Alors que les méthodes existantes telles que Direct Preference Optimization (DPO) et ses variantes traitent l’apprentissage des préférences comme un problème d’estimation du maximum de vraisemblance (MLE), MaPPO étend ce paradigme en intégrant des estimations a priori de la récompense dans un objectif fondé sur le maximum a posteriori (MaP) rigoureux. Cette approche généralise non seulement DPO et ses variantes, mais améliore également l’alignement en atténuant la classification binaire trop simplifiée des réponses. Plus important encore, MaPPO n’introduit aucun hyperparamètre supplémentaire et permet l’optimisation des préférences aussi bien dans des cadres hors ligne que en ligne. En outre, MaPPO peut être utilisé comme un module plug-in offrant une amélioration cohérente sur les variantes de DPO, y compris des méthodes largement utilisées telles que SimPO, IPO et CPO. Des évaluations empiriques étendues menées sur différentes tailles de modèles et différentes familles de modèles, sur trois benchmarks standards — MT-Bench, AlpacaEval 2.0 et Arena-Hard — démontrent des améliorations constantes de la performance d’alignement, sans compromettre l’efficacité computationnelle.