HyperAIHyperAI

Command Palette

Search for a command to run...

Un Jeton pour Tromper les LLM en tant que Juge

Yulai Zhao Haolin Liu Dian Yu S. Y. Kung Haitao Mi Dong Yu

Résumé

Les modèles de récompense génératifs (également connus sous le nom de LLMs-as-judges), qui utilisent des grands modèles linguistiques (LLMs) pour évaluer la qualité des réponses, sont de plus en plus adoptés dans l'apprentissage par renforcement avec des récompenses vérifiables (RLVR). Ils sont souvent préférés aux métriques basées sur des règles rigides, en particulier pour les tâches complexes impliquant des sorties libres. Dans ce paradigme, un LLM est généralement invité à comparer une réponse candidate à une référence véridique et à attribuer une récompense binaire indiquant sa justesse. Malgré l'apparente simplicité de cette tâche de comparaison, nous constatons que les modèles de récompense génératifs présentent des vulnérabilités surprenantes face à des manipulations superficielles : des symboles non-lexicaux (par exemple, ":" ou ".") ou des formules d'ouverture de raisonnement comme "Processus de pensée :" et "Résolvons ce problème étape par étape." peuvent souvent entraîner des récompenses faussement positives. Nous démontrons que cette faiblesse est répandue parmi les LLMs, les jeux de données et les formats d'invitations, posant une menace sérieuse pour les paradigmes algorithmiques fondamentaux qui s'appuient sur les modèles de récompense génératifs, tels que l'échantillonnage par rejet, l'optimisation des préférences et le RLVR. Pour atténuer ce problème, nous introduisons une stratégie simple mais efficace d'augmentation de données et formons un nouveau modèle de récompense génératif doté d'une robustesse considérablement améliorée. Nos résultats soulignent l'urgence d'avoir recours à des méthodes d'évaluation basées sur les LLMs plus fiables. Nous mettons à disposition notre modèle de récompense robuste et généraliste ainsi que ses données d'entraînement synthétiques sur https://huggingface.co/sarosavo/Master-RM et https://huggingface.co/datasets/sarosavo/Master-RM.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp