il y a 6 mois

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang

Résumé

La vérification des réponses est cruciale non seulement pour évaluer les grands modèles linguistiques (LLM) en comparant leurs sorties non structurées aux réponses standard, mais elle sert également de modèle de récompense pour guider l'optimisation des LLM. La plupart des cadres d'évaluation s'appuient sur une correspondance régularisée ou utilisent des LLM généraux pour la vérification des réponses, ce qui exige une personnalisation étendue et répétitive des règles regex ou des prompts d'évaluation. Deux limites fondamentales persistent dans les méthodologies actuelles : 1) l'absence de benchmarks complets permettant d'évaluer systématiquement les capacités de vérification à travers différents LLM ; et 2) l'état embryonnaire du développement des vérificateurs, où les approches existantes manquent à la fois de robustesse pour traiter des cas limites complexes et de généralisabilité à travers différents domaines. Dans ce travail, nous développons CompassVerifier, un modèle de vérificateur léger, précis et robuste, destiné à l'évaluation et à la récompense des résultats. Il démontre une compétence multi-domaines couvrant les mathématiques, les connaissances et diverses tâches de raisonnement, avec la capacité de traiter différents types de réponses, y compris des sous-problèmes multiples, des formules et des réponses séquentielles, tout en identifiant efficacement les réponses anormales ou non valides. Nous introduisons le benchmark VerifierBench, constitué de sorties de modèles provenant de plusieurs sources de données, enrichi par une analyse manuelle des schémas d'erreurs métacognitives afin d'améliorer CompassVerifier. Nous pensons que CompassVerifier et VerifierBench faciliteront la vérification des réponses, les protocoles d'évaluation et la recherche en apprentissage par renforcement. Le code et les jeux de données sont disponibles à l'adresse suivante : https://github.com/open-compass/CompassVerifier.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

CompassVerifier : un vérificateur unifié et robuste pour l'évaluation des LLM et la récompense des résultats

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CompassVerifier : un vérificateur unifié et robuste pour l'évaluation des LLM et la récompense des résultats

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CompassVerifier : un vérificateur unifié et robuste pour l'évaluation des LLM et la récompense des résultats

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang1 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang