HyperAI
Back to Headlines

DeepMind lance Crome pour améliorer l'alignement des LLM avec les retours humains.

il y a 2 jours

Les modèles de récompense sont des composants essentiels pour aligner les grands modèles linguistiques (LLMs) avec le feedback humain, mais ils font face au défi du « reward hacking » ou piratage des récompenses. Ces modèles se concentrent souvent sur des attributs superficiels tels que la longueur des réponses ou leur formatage, plutôt que sur des indicateurs de qualité véritables comme la véracité et la pertinence. Ce problème découle du fait que les objectifs d'entraînement standards ne parviennent pas à distinguer les corrélations spurieuses présentes dans les données d'entraînement des vrais facteurs causaux de la qualité des réponses. Cette incapacité à séparer ces facteurs conduit à des modèles de récompense (RMs) fragiles, qui génèrent des politiques non-alignées. Limitations des Approches Actuelles et Nécessité de la Robustesse Causale Les méthodes existantes tentent de résoudre les problèmes de piratage des récompenses dans les systèmes d'apprentissage par renforcement basés sur les préférences humaines (RLHF) qui reposent sur des méthodes de classement par paires telles que Bradley-Terry. Ces approches incluent des modifications architecturales, des ajustements au niveau des politiques, et des méthodes centrées sur les données impliquant des ensembles ou des contrôles de cohérence. Des méthodes récentes inspirées par la causalité utilisent la régularisation MMD contre des facteurs spurieux prédéfinis ou estiment les effets causaux par des réécritures corrigées. Cependant, ces méthodes ne ciblent que des facteurs spurieux prédéterminés, négligeant les corrélations spurieuses inconnues. Les stratégies d'augmentation restent grossières, et les méthodes axées sur l'évaluation ne dotent pas les modèles de récompense de mécanismes de formation robustes face à une variété de facteurs spurieux. Introduction de Crome : Modélisation Robuste des Récompenses Basée sur la Causalité Des chercheurs de Google DeepMind, de l'Université McGill et de MILA – Institut québécois d'IA, ont proposé Crome (Causally Robust Reward Modeling), un cadre basé sur un modèle causal explicite de génération de réponses. Crome entraîne les RMs pour différencier les véritables facteurs de qualité des indices superficiels en ajoutant des jeux de données de préférences avec des exemples contrefactuels générés par des LLMs. De plus, il crée deux types de paires de formation synthétiques : (a) des augmentations causales, qui introduisent des modifications le long d'attributs spécifiques tels que la véracité pour renforcer la sensibilité aux véritables changements de qualité, et (b) des augmentations neutres, qui imposent une invariance le long d'attributs spurieux tels que le style en utilisant des étiquettes d'égalité. Crome améliore la robustesse, augmentant la précision de RewardBench jusqu'à 4,5 %, tout en améliorant la sécurité et la raisonnement. Approche Technique : Augmentation Contrefactuelle et Optimisation de Perte Composée Crome opère en deux phases principales : la génération de données contrefactuelles basées sur un modèle causal et l'entraînement du modèle de récompense avec une perte spécialisée sur des données combinées. Une analyse théorique montre comment l'augmentation causale isole les véritables conducteurs de récompense des corrélations spurieuses sous un modèle idéalisé. Crome utilise le jeu de données UltraFeedback avec des contrefactuels générés par Gemini 2.0 Flash et évalue les performances sur RewardBench et reWordBench. Les expériences comprennent une variété de LLMs de base, notamment Gemma-2-9B-IT, Qwen2.5-7B et Gemma-2-2B, pour des modèles de récompense de type Pairwise Preference et Bradley-Terry, avec un impact d'alignement en aval grâce à la sélection Best-of-N sur plusieurs tâches. Améliorations de Performance : De RewardBench à WildGuardTest Sur RewardBench, Crome réalise des améliorations significatives en précision de classement par rapport à RRM sur divers modèles de base, avec des gains particulièrement importants dans les catégories de Sécurité (jusqu'à 13,18 %) et de Raisonnement (jusqu'à 7,19 %). Crome affiche des gains de précision agrégée jusqu'à 9,1 % sur reWordBench avec Gemma-2-9B-IT dans des configurations PairPM et une performance supérieure sur 21 des 23 transformations. De plus, il montre une diminution moindre de la précision de classement de RewardBench à reWordBench par rapport à RRM (19,78 % contre 21,54 %). Crome obtient également d'excellents résultats en matière de sécurité sur WildGuardTest avec la sélection Best-of-N, réduisant le taux de succès des attaques sur des prompts malveillants tout en maintenant des taux de refus similaires sur des prompts inoffensifs. Conclusion et Directions Futures en Augmentation de Données Causales En conclusion, les chercheurs ont introduit Crome, un cadre causal qui résout les problèmes de piratage des récompenses lors de l'entraînement des RMs. Il emploie deux stratégies de synthèse de données ciblées : les Augmentations Causales et les Augmentations Neutres. Crome surpasse les bases solides sur plusieurs modèles de base et techniques de modélisation de récompense sur RewardBench et montre une robustesse supérieure sur reWordBench contre les corrélations spurieuses. Cette méthode de formation centrée sur la curation de jeux de données (Crome) ouvre de nouvelles directions de recherche en génération de données synthétiques pour l'entraînement de modèles de base, où la vérification causale des attributs pourrait s'avérer très bénéfique pour les futurs développements en alignement robuste des modèles linguistiques. Les modèles de récompense actuels, bien qu'efficaces dans certaines situations, souffrent de limitations importantes liées à leur capacité à distinguer les véritables facteurs de qualité des indices superficiels. Crome, en utilisant des augmentations causales et neutres, apporte une solution novatrice et robuste, améliorant considérablement les performances et la sécurité des LLMs. Cette avancée ouvre la voie à de nouvelles recherches en matière de génération de données synthétiques et de méthodes d'entraînement basées sur la causalité, ce qui pourrait révolutionner l'alignement des modèles linguistiques avec les préférences humaines.

Related Links