HyperAIHyperAI
il y a 3 mois

Step-DPO : Optimisation par préférences étape par étape pour le raisonnement à chaîne longue des LLM

Xin Lai, Zhuotao Tian, Yukang Chen, Senqiao Yang, Xiangru Peng, Jiaya Jia
Step-DPO : Optimisation par préférences étape par étape pour le raisonnement à chaîne longue des LLM
Résumé

Le raisonnement mathématique constitue un défi majeur pour les grands modèles linguistiques (LLM), en raison de la chaîne de raisonnement longue et précise requise pour garantir une exactitude adéquate. Assurer la correction de chaque étape du raisonnement est essentiel. Pour relever ce défi, nous visons à améliorer la robustesse et la fidélité factuelle des LLM en apprenant à partir des retours humains. Toutefois, l’Optimisation de Préférence Directe (DPO) a montré des bénéfices limités dans le cadre du raisonnement mathématique à longue chaîne, car les modèles utilisant la DPO peinent à détecter des erreurs détaillées dans les réponses incorrectes. Cette limitation provient d’un manque de supervision fine au niveau du processus. Nous proposons une méthode simple, efficace et à faible consommation de données appelée Step-DPO, qui traite chaque étape du raisonnement comme une unité d’optimisation de préférence, plutôt que d’évaluer globalement la réponse. En outre, nous avons conçu un pipeline de construction de données pour Step-DPO, permettant la création d’un jeu de données de haute qualité comprenant 10 000 paires de préférences étape par étape. Nous observons également que, dans le cadre de la DPO, les données générées par le modèle lui-même s’avèrent plus efficaces que celles produites par des humains ou par GPT-4, en raison de la nature hors-distribution de ces dernières. Nos résultats montrent qu’un simple jeu de 10 000 paires de préférences et moins de 500 étapes d’entraînement Step-DPO suffisent à obtenir une amélioration d’environ 3 % en précision sur le jeu de données MATH pour des modèles dépassant 70 milliards de paramètres. Notamment, Step-DPO appliqué au modèle Qwen2-72B-Instruct atteint des scores de 70,8 % et 94,0 % sur les ensembles de test de MATH et GSM8K respectivement, dépassant une série de modèles propriétaires, dont GPT-4-1106, Claude-3-Opus et Gemini-1.5-Pro. Le code, les données et les modèles sont disponibles à l’adresse suivante : https://github.com/dvlab-research/Step-DPO.