DuPO : Permettre une auto-vérification fiable des grands modèles linguistiques grâce à une optimisation par préférences duals

Nous présentons DuPO, un cadre d'optimisation des préférences fondé sur l'apprentissage dual, qui génère des retours sans annotation grâce à une dualité généralisée. DuPO surmonte deux limitations majeures : la dépendance de l'apprentissage par renforcement avec récompenses vérifiables (RLVR) aux étiquettes coûteuses, ainsi que sa restriction aux tâches vérifiables, et la contrainte de l'apprentissage dual traditionnel, limité aux paires strictement duales (par exemple, traduction et traduction inverse). Plus précisément, DuPO décompose l'entrée d'une tâche primaire en composantes connues et inconnues, puis construit une tâche duale visant à reconstruire la partie inconnue à l’aide de la sortie de la tâche primaire et des informations connues (par exemple, l'inversion de solutions mathématiques pour retrouver des variables cachées), étendant ainsi son application aux tâches non inversibles. La qualité de cette reconstruction sert de récompense auto-supervisée pour optimiser la tâche primaire, en synergie avec la capacité des LLM à instancier les deux tâches via un seul modèle. Expérimentalement, DuPO obtient des gains importants sur une large variété de tâches : il améliore la qualité moyenne de la traduction de 2,13 points COMET sur 756 directions, augmente la précision du raisonnement mathématique de 6,4 points en moyenne sur trois benchmarks exigeants, et améliore les performances de 9,3 points en tant que module de reranking en temps d'inférence (au prix d'une augmentation de la charge computationnelle). Ces résultats positionnent DuPO comme une approche généralisable, universelle et sans annotation pour l'optimisation des LLM.