HyperAIHyperAI

Command Palette

Search for a command to run...

DuPO : Permettre une auto-vérification fiable des grands modèles linguistiques grâce à une optimisation par préférences duals

Shuaijie She Yu Bao Yu Lu Lu Xu Tao Li Wenhao Zhu Shujian Huang Shanbo Cheng Lu Lu Yuxuan Wang

Résumé

Nous présentons DuPO, un cadre d'optimisation des préférences fondé sur l'apprentissage dual, qui génère des retours sans annotation grâce à une dualité généralisée. DuPO surmonte deux limitations majeures : la dépendance de l'apprentissage par renforcement avec récompenses vérifiables (RLVR) aux étiquettes coûteuses, ainsi que sa restriction aux tâches vérifiables, et la contrainte de l'apprentissage dual traditionnel, limité aux paires strictement duales (par exemple, traduction et traduction inverse). Plus précisément, DuPO décompose l'entrée d'une tâche primaire en composantes connues et inconnues, puis construit une tâche duale visant à reconstruire la partie inconnue à l’aide de la sortie de la tâche primaire et des informations connues (par exemple, l'inversion de solutions mathématiques pour retrouver des variables cachées), étendant ainsi son application aux tâches non inversibles. La qualité de cette reconstruction sert de récompense auto-supervisée pour optimiser la tâche primaire, en synergie avec la capacité des LLM à instancier les deux tâches via un seul modèle. Expérimentalement, DuPO obtient des gains importants sur une large variété de tâches : il améliore la qualité moyenne de la traduction de 2,13 points COMET sur 756 directions, augmente la précision du raisonnement mathématique de 6,4 points en moyenne sur trois benchmarks exigeants, et améliore les performances de 9,3 points en tant que module de reranking en temps d'inférence (au prix d'une augmentation de la charge computationnelle). Ces résultats positionnent DuPO comme une approche généralisable, universelle et sans annotation pour l'optimisation des LLM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp