HyperAIHyperAI
vor 18 Tagen

CompassVerifier: Ein einheitlicher und robuster Verifier für die Bewertung von LLMs und die Belohnung von Ergebnissen

Shudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen
CompassVerifier: Ein einheitlicher und robuster Verifier für die Bewertung von LLMs und die Belohnung von Ergebnissen
Abstract

Die Antwortüberprüfung ist nicht nur entscheidend für die Bewertung großer Sprachmodelle (LLMs), indem deren unstrukturierte Ausgaben mit Standardantworten abgeglichen werden, sondern dient auch als Belohnungsmodell zur Steuerung der Optimierung von LLMs. Die meisten Evaluationsframeworks basieren entweder auf regulierten Abgleichverfahren oder nutzen allgemeine LLMs zur Antwortüberprüfung, wodurch umfangreiche, wiederholte Anpassungen von Regex-Regeln oder Bewertungs-Prompts erforderlich sind. Zwei grundlegende Einschränkungen bestehen bei derzeitigen Methoden: Erstens fehlt es an umfassenden Benchmarks, die die Überprüfungsleistung verschiedener LLMs systematisch bewerten; zweitens befindet sich die Entwicklung von Verifizierungsmodellen noch in einem frühen Stadium, wobei bestehende Ansätze sowohl an Robustheit zur Bewältigung komplexer Randfälle als auch an Verallgemeinerungsfähigkeit über verschiedene Domänen hinweg mangeln. In dieser Arbeit präsentieren wir CompassVerifier, ein genaues und robustes leichtgewichtiges Verifizierungsmodell für die Evaluierung und Belohnung von Ergebnissen. Es zeigt Kompetenz über mehrere Domänen hinweg – einschließlich Mathematik, Wissensbasis und vielfältige Schlussfolgerungsaufgaben – und ist in der Lage, verschiedene Antwortformate zu verarbeiten, darunter Aufgaben mit mehreren Teilproblemen, Formeln sowie sequenzielle Antworten, während es gleichzeitig abnorme oder ungültige Antworten effektiv erkennt. Wir stellen den VerifierBench-Benchmark vor, der aus Modellausgaben mehrerer Datensourcen zusammengestellt wurde und durch manuelle Analyse von Metafehlermustern ergänzt wurde, um CompassVerifier zu verbessern. Wir gehen davon aus, dass CompassVerifier und VerifierBench die Forschung in Bereichen wie Antwortüberprüfung, Evaluierungsprotokolle und Verstärkendes Lernen voranbringen werden. Der Quellcode und die Datensätze sind unter https://github.com/open-compass/CompassVerifier verfügbar.