Crome : Un Cadre Causalement Robuste pour l'Amélioration des Modèles de Récompense dans l'Alignement des LLMs
Crome : Un Nouveau Cadre de Modélisation de Récompenses Basé sur les Causalités pour l'Alignement de Modèles Linguistiques Les modèles de récompense (RMs) sont élémentaires pour l'alignement des grands modèles linguistiques (LLMs) avec les feedbacks humains. Pourtant, ils se heftent souvent à des problèmes de trucage des récompenses, où les modèles privilégient des attributs superficiels comme la longueur de la réponse ou son formatage, plutôt que des indicateurs de qualité fondamentaux tels que la fidélité et la pertinence. Ces défis surviennent car les objectifs d'entraînement standards ne diffèrent pas entre les corrélations parasites présentes dans les données d'entraînement et les véritables facteurs causaux de la qualité des réponses. Cette incapacité à distinguer ces éléments conduit à des RMs fragiles qui produisent des politiques mal alignées. Une méthode est donc nécessaire, utilisant une compréhension causale de la formation des préférences pour entraîner des RMs sensibles aux attributs de qualité causals et invariants face aux indices parasites variés. Limitations des Méthodes Actuelles et la Nécessité de Rendre la Causalité Robuste Des méthodes existantes cherchent à résoudre les problèmes de trucage des récompenses dans les systèmes d'apprentissage par renforcement basés sur les feedbacks humains (RLHF). Ces approches incluent des modifications architecturales (comme Odin), des ajustements au niveau de la politique, et des méthodes centrées sur les données impliquant des ensembles ou des vérifications de consistance. Des méthodes récentes inspirées par la causalité utilisent des régularisations par MMD contre des facteurs parasites prédéterminés, ou estiment les effets causals à travers des réécritures corrigées. Toutefois, ces méthodes ne visent que des facteurs parasites prédéfinis, négligeant les correllates inconnus. De plus, les stratégies d'augmentation demeurent approximatives, et les méthodes axées sur l'évaluation échouent à doter les RMs de mécanismes d'entraînement robustes contre diverses variations parasites. Présentation de Crome : Une Modélisation de Récompenses Causalement Robuste Des chercheurs de Google DeepMind, de l'Université McGill, et de MILA (Institut québécois d'IA) ont proposé Crome (Causally Robust Reward Modeling), un cadre basé sur un modèle causal explicite de génération de réponses. Crome entraîne les RMs pour qu'ils fassent la distinction entre les vrais facteurs de qualité et les indices superficiels en ajoutant des ensembles de préférence avec des exemples contrefactuels générés de manière ciblée par des LLMs. Cette méthodologie engendre deux types de paires d'entraînement synthétiques : 1. Augmentations Causales : Introduisant des modifications le long d'attributs spécifiques de causalité, comme la fidélité, pour renforcer la sensibilité aux changements véritables de la qualité. 2. Augmentations Neutres : Assurant l'invariance le long d'attributs parasites, comme le style, en utilisant des labels d'égalité. Crome booste la robustesse des RMs, augmentant la précision de RewardBench jusqu'à 4.5%, tout en améliorant la sécurité et la raisonnement. Approche Technique : Augmentation Contre-factuelle et Optimisation de Perte Composée Crome fonctionne en deux phases principales : la génération de données contre-factuelles basées sur un modèle causal et l'entraînement du RM avec une perte spécialisée sur des données combinées. Les chercheurs fournissent une analyse théorique sur la manière dont l'augmentation causale isole les véritables moteurs de récompense des corrélations parasites sous un modèle idéalisé. Crome utilise le jeu de données UltraFeedback, avec des contre-factuels générés par Gemini 2.0 Flash, et évalue les performances sur RewardBench et reWordBench. Les expérimentations sont menées avec divers LLMs, y compris Gemma-2-9B-IT, Qwen2.5-7B, et Gemma-2-2B, pour des modèles de récompense en mode Pairwise Preference et Bradley-Terry, avec un impact de l'alignement descendu grâce à la sélection Best-of-N sur plusieurs tâches. Améliorations de Performance : De RewardBench à WildGuardTest Sur RewardBench, Crome réalise des gains de précision dans le classement par rapport à RRM (ReWeighted Regression Model) sur diverses bases de modèles, avec des améliorations notables dans les catégories de Sécurité (jusqu'à 13.18%) et de Raisonnement (jusqu'à 7.19%). Sur reWordBench, Crome montre une précision globale augmentée de 9.1% avec Gemma-2-9B-IT dans le contexte PairPM, surclassant les performances sur 21 des 23 transformations. En outre, Crome présente une réduction moindre de la précision du classement entre RewardBench et reWordBench par rapport à RRM (19.78% vs 21.54%). Crome offre également d'excellentes améliorations en termes de sécurité sur WildGuardTest grâce à la sélection Best-of-N, atteignant des ratios de succès d'attaque inférieurs sur les prompts néfastes tout en maintenant des taux de refus similaires sur les prompts inoffensifs. Conclusion et Perspectives FutURES en Augmentation de Données Causales En somme, les chercheurs ont introduit Crome, un cadre causal qui combat les problèmes de trucage des récompenses durant l'entraînement des RMs. Ce cadre utilise deux stratégies d'augmentation de données synthétiques ciblées : Augmentations Causales et Augmentations Neutres. Cromesurpasse les baselines solides sur RewardBench, et offre une robustesse supérieure sur reWordBench contre les corrélations parasites. Cet approach de curation de jeux de données orienté vers la causalité ouvre de nouvelles voies de recherche en génération de données synthétiques pour l'entraînement des modèles de base, où la vérification causale des attributs pourrait être hautement bénéfique pour d'avenir alignement des modèles linguistiques robustes. Avis de Professionnels de l'Industrie et Profil de Google DeepMind Crome a été accueilli favorablement par des experts de l'industrie, qui saluent son approche innovante pour résoudre des problèmes complexes d'alignement des LLMs. Google DeepMind est une entreprise de pointe connue pour ses recherches avancées en intelligence artificielle, en particulier dans l'utilisation de méthodes causales pour améliorer la fiabilité des systèmes d'apprentissage automatique. Cette nouvelle initiative confirme la position de DeepMind comme leader dans le développement de technologies IA robustes et alignées.