Un Jeton pour Tromper les LLM en tant que Juge

Les modèles de récompense génératifs (également connus sous le nom de LLMs-as-judges), qui utilisent des grands modèles linguistiques (LLMs) pour évaluer la qualité des réponses, sont de plus en plus adoptés dans l'apprentissage par renforcement avec des récompenses vérifiables (RLVR). Ils sont souvent préférés aux métriques basées sur des règles rigides, en particulier pour les tâches complexes impliquant des sorties libres. Dans ce paradigme, un LLM est généralement invité à comparer une réponse candidate à une référence véridique et à attribuer une récompense binaire indiquant sa justesse. Malgré l'apparente simplicité de cette tâche de comparaison, nous constatons que les modèles de récompense génératifs présentent des vulnérabilités surprenantes face à des manipulations superficielles : des symboles non-lexicaux (par exemple, ":" ou ".") ou des formules d'ouverture de raisonnement comme "Processus de pensée :" et "Résolvons ce problème étape par étape." peuvent souvent entraîner des récompenses faussement positives. Nous démontrons que cette faiblesse est répandue parmi les LLMs, les jeux de données et les formats d'invitations, posant une menace sérieuse pour les paradigmes algorithmiques fondamentaux qui s'appuient sur les modèles de récompense génératifs, tels que l'échantillonnage par rejet, l'optimisation des préférences et le RLVR. Pour atténuer ce problème, nous introduisons une stratégie simple mais efficace d'augmentation de données et formons un nouveau modèle de récompense génératif doté d'une robustesse considérablement améliorée. Nos résultats soulignent l'urgence d'avoir recours à des méthodes d'évaluation basées sur les LLMs plus fiables. Nous mettons à disposition notre modèle de récompense robuste et généraliste ainsi que ses données d'entraînement synthétiques sur https://huggingface.co/sarosavo/Master-RM et https://huggingface.co/datasets/sarosavo/Master-RM.