VerifyBench: Ein systematischer Benchmark zur Bewertung von Reasoning-Verifizierern in verschiedenen Bereichen

Große Sprachmodelle (GSM) setzen zunehmend auf das Verstärkungslernen (RL), um durch Feedback ihre Fähigkeiten im logischen Schlussfolgern zu verbessern. Eine entscheidende Herausforderung besteht darin, die Konsistenz der vom Modell generierten Antworten und der Referenzantworten zu überprüfen, da diese Antworten oft lang, vielfältig und nuanciert sind. Regelbasierte Verifizierer ringen mit der Komplexität, was den Einsatz modellbasierter Verifizierer erfordert. Spezialisierte Verifizierer hingegen vermissen Flexibilität, während allgemeine GSM-Jurys inkonsistent sein können. Bestehende Forschungen konzentrieren sich hauptsächlich darauf, bessere Verifizierer zu entwickeln, fehlt es jedoch an einer systematischen Bewertung der Leistung verschiedener Arten von Verifizierern in verschiedenen Bereichen. Dies begrenzt die verlässliche Entwicklung des Reinforcement Learning with Verifiable Reward (RLVR) stark. Um dies anzugehen, schlagen wir VerifyBench vor – eine umfassende Benchmark für die systematische Evaluierung von Verifizierern über verschiedene Domains hinweg. Wir erstellen 4.000 Expertenfragen, die Mathematik, Physik, Chemie und Biologie abdecken. Jede Frage wird mit Referenzantworten und diversen Reaktionen versehen. Die Zuverlässigkeit der Bewertung wird durch einen strengen Annotationsprozess gewährleistet, der von einem interdisziplinären Expertenteam durchgeführt wird. Wir entwerfen ein vierdimensionales experimentelles Framework, um die Leistungsgrenzen spezialisierter Verifizierer und allgemeiner GSMs unter kombinierten Bedingungen von extrahierten Antworten versus vollständigen Reaktionen sowie kurzen versus langen Ausgaben umfassend zu vergleichen. Unsere Evaluation deckt grundlegende Kompromisse in den Verifizierern auf: Während spezialisierte Verifizierer führende Genauigkeit erreichen, zeigen sie Mängel im Recall; allgemeine Modelle weisen eine stärkere Inklusivität auf, aber instabile Präzision. Noch wichtiger ist unser Fund, dass Verifizierer hochgradig empfindlich gegenüber der Eingabestruktur sind und inhärente Einschränkungen bei der Generalisierung über mehrere Domains hinweg haben. Dies liefert entscheidende Erkenntnisse in Bezug auf die Engpässe der aktuellen Verifier-Technologie.