Optimisation Des Préférences Directes
L'optimisation des préférences directes (DPO) est une stratégie de réglage fin permettant d'aligner les grands modèles linguistiques (LLM) sur les préférences humaines. Il a été proposé par une équipe de recherche de l'Université de Stanford et de CZ Biohub en 2023 et publié dans l'articleOptimisation des préférences directes : votre modèle linguistique est secrètement un modèle de récompense》, publié dans NeurIPS 2023.
L’idée principale du DPO est d’optimiser directement les données de préférence humaine sans former un modèle de récompense distinct ni utiliser l’apprentissage par renforcement. Il affine le modèle de langage à l’aide de données de préférence binaires, rendant le modèle plus enclin à générer des réponses que les humains préfèrent. Comparé à l’apprentissage par renforcement traditionnel avec rétroaction humaine (RLHF), le DPO est plus simple, plus stable et moins coûteux en termes de calcul. Il évite le processus d'ajustement du modèle de récompense en incorporant la perte de préférence directement dans la politique, tout en utilisant la contrainte de divergence KL pour garantir que le modèle en cours de formation ne s'écarte pas du modèle d'origine.
Le DPO est proposé pour répondre à certaines limitations du RLHF, telles que le coût de calcul élevé, la modélisation complexe des récompenses et l'instabilité pendant la formation. Les expériences montrent que le DPO surpasse le RLHF basé sur le PPO dans le contrôle du sentiment généré et est comparable ou meilleur que lui en termes de qualité de réponse au dialogue récapitulatif et à tour unique. De plus, DPO améliore encore les performances du modèle en introduisant une valeur de décalage pour gérer les paires de préférences avec différentes forces de préférence.