HyperAIHyperAI

Command Palette

Search for a command to run...

CompassVerifier : un vérificateur unifié et robuste pour l'évaluation des LLM et la récompense des résultats

Résumé

La vérification des réponses est cruciale non seulement pour évaluer les grands modèles linguistiques (LLM) en comparant leurs sorties non structurées aux réponses standard, mais elle sert également de modèle de récompense pour guider l'optimisation des LLM. La plupart des cadres d'évaluation s'appuient sur une correspondance régularisée ou utilisent des LLM généraux pour la vérification des réponses, ce qui exige une personnalisation étendue et répétitive des règles regex ou des prompts d'évaluation. Deux limites fondamentales persistent dans les méthodologies actuelles : 1) l'absence de benchmarks complets permettant d'évaluer systématiquement les capacités de vérification à travers différents LLM ; et 2) l'état embryonnaire du développement des vérificateurs, où les approches existantes manquent à la fois de robustesse pour traiter des cas limites complexes et de généralisabilité à travers différents domaines. Dans ce travail, nous développons CompassVerifier, un modèle de vérificateur léger, précis et robuste, destiné à l'évaluation et à la récompense des résultats. Il démontre une compétence multi-domaines couvrant les mathématiques, les connaissances et diverses tâches de raisonnement, avec la capacité de traiter différents types de réponses, y compris des sous-problèmes multiples, des formules et des réponses séquentielles, tout en identifiant efficacement les réponses anormales ou non valides. Nous introduisons le benchmark VerifierBench, constitué de sorties de modèles provenant de plusieurs sources de données, enrichi par une analyse manuelle des schémas d'erreurs métacognitives afin d'améliorer CompassVerifier. Nous pensons que CompassVerifier et VerifierBench faciliteront la vérification des réponses, les protocoles d'évaluation et la recherche en apprentissage par renforcement. Le code et les jeux de données sont disponibles à l'adresse suivante : https://github.com/open-compass/CompassVerifier.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
CompassVerifier : un vérificateur unifié et robuste pour l'évaluation des LLM et la récompense des résultats | Articles | HyperAI