CompassVerifier : un vérificateur unifié et robuste pour l'évaluation des LLM et la récompense des résultats

La vérification des réponses est cruciale non seulement pour évaluer les grands modèles linguistiques (LLM) en comparant leurs sorties non structurées aux réponses standard, mais elle sert également de modèle de récompense pour guider l'optimisation des LLM. La plupart des cadres d'évaluation s'appuient sur une correspondance régularisée ou utilisent des LLM généraux pour la vérification des réponses, ce qui exige une personnalisation étendue et répétitive des règles regex ou des prompts d'évaluation. Deux limites fondamentales persistent dans les méthodologies actuelles : 1) l'absence de benchmarks complets permettant d'évaluer systématiquement les capacités de vérification à travers différents LLM ; et 2) l'état embryonnaire du développement des vérificateurs, où les approches existantes manquent à la fois de robustesse pour traiter des cas limites complexes et de généralisabilité à travers différents domaines. Dans ce travail, nous développons CompassVerifier, un modèle de vérificateur léger, précis et robuste, destiné à l'évaluation et à la récompense des résultats. Il démontre une compétence multi-domaines couvrant les mathématiques, les connaissances et diverses tâches de raisonnement, avec la capacité de traiter différents types de réponses, y compris des sous-problèmes multiples, des formules et des réponses séquentielles, tout en identifiant efficacement les réponses anormales ou non valides. Nous introduisons le benchmark VerifierBench, constitué de sorties de modèles provenant de plusieurs sources de données, enrichi par une analyse manuelle des schémas d'erreurs métacognitives afin d'améliorer CompassVerifier. Nous pensons que CompassVerifier et VerifierBench faciliteront la vérification des réponses, les protocoles d'évaluation et la recherche en apprentissage par renforcement. Le code et les jeux de données sont disponibles à l'adresse suivante : https://github.com/open-compass/CompassVerifier.