VerifyBench : Un Benchmark Systématique pour Évaluer les Vérificateurs de Raisonnement dans Différents Domaines

Les grands modèles de langage (LLMs) s'appuient de plus en plus sur l'apprentissage par renforcement (RL) pour améliorer leurs capacités de raisonnement grâce à des retours d'information. Un défi crucial est la vérification de la cohérence des réponses générées par le modèle et des réponses de référence, ces réponses étant souvent longues, variées et nuancées. Les vérificateurs basés sur des règles peinent à gérer cette complexité, ce qui incite à utiliser des vérificateurs basés sur des modèles. Cependant, les vérificateurs spécialisés manquent de flexibilité, tandis que les juges généraux LLM peuvent être incohérents. Les recherches existantes se concentrent principalement sur la construction de meilleurs vérificateurs, mais une évaluation systématique des performances de différents types de vérificateurs dans divers domaines fait encore défaut, limitant gravement le développement fiable de l'Apprentissage par Renforcement avec Récompense Vérifiable (RLVR). Pour remédier à cela, nous proposons VerifyBench--un banc d'essai complet et interdisciplinaire pour évaluer systématiquement les vérificateurs. Nous avons élaboré 4 000 questions d'expert couvrant les mathématiques, la physique, la chimie et la biologie. Chaque question est accompagnée de réponses de référence et de réponses diverses. La fiabilité de l'évaluation est garantie par un processus d'annotation rigoureux mené par une équipe d'experts multidisciplinaires. Nous avons conçu un cadre expérimental quadridimensionnel pour comparer exhaustivement les limites de performance des vérificateurs spécialisés et des LLMs généraux sous différentes conditions combinées : réponses extraites versus réponses complètes, et sorties courtes versus sorties longues. Notre évaluation met en lumière des compromis fondamentaux dans les vérificateurs : bien que les vérificateurs spécialisés atteignent une précision élevée, ils présentent des lacunes en rappel ; les modèles généraux montrent une plus grande inclusivité mais une précision instable. Plus important encore, nous découvrons une forte sensibilité des vérificateurs à la structure d'entrée et des limitations inhérentes à leur généralisation interdisciplinaire, offrant ainsi des perspectives critiques sur les goulets d'étranglement actuels de la technologie des vérificateurs.