HyperAIHyperAI

Command Palette

Search for a command to run...

CompassVerifier: Ein einheitlicher und robuster Verifier für die Bewertung von LLMs und die Belohnung von Ergebnissen

Zusammenfassung

Die Antwortüberprüfung ist nicht nur entscheidend für die Bewertung großer Sprachmodelle (LLMs), indem deren unstrukturierte Ausgaben mit Standardantworten abgeglichen werden, sondern dient auch als Belohnungsmodell zur Steuerung der Optimierung von LLMs. Die meisten Evaluationsframeworks basieren entweder auf regulierten Abgleichverfahren oder nutzen allgemeine LLMs zur Antwortüberprüfung, wodurch umfangreiche, wiederholte Anpassungen von Regex-Regeln oder Bewertungs-Prompts erforderlich sind. Zwei grundlegende Einschränkungen bestehen bei derzeitigen Methoden: Erstens fehlt es an umfassenden Benchmarks, die die Überprüfungsleistung verschiedener LLMs systematisch bewerten; zweitens befindet sich die Entwicklung von Verifizierungsmodellen noch in einem frühen Stadium, wobei bestehende Ansätze sowohl an Robustheit zur Bewältigung komplexer Randfälle als auch an Verallgemeinerungsfähigkeit über verschiedene Domänen hinweg mangeln. In dieser Arbeit präsentieren wir CompassVerifier, ein genaues und robustes leichtgewichtiges Verifizierungsmodell für die Evaluierung und Belohnung von Ergebnissen. Es zeigt Kompetenz über mehrere Domänen hinweg – einschließlich Mathematik, Wissensbasis und vielfältige Schlussfolgerungsaufgaben – und ist in der Lage, verschiedene Antwortformate zu verarbeiten, darunter Aufgaben mit mehreren Teilproblemen, Formeln sowie sequenzielle Antworten, während es gleichzeitig abnorme oder ungültige Antworten effektiv erkennt. Wir stellen den VerifierBench-Benchmark vor, der aus Modellausgaben mehrerer Datensourcen zusammengestellt wurde und durch manuelle Analyse von Metafehlermustern ergänzt wurde, um CompassVerifier zu verbessern. Wir gehen davon aus, dass CompassVerifier und VerifierBench die Forschung in Bereichen wie Antwortüberprüfung, Evaluierungsprotokolle und Verstärkendes Lernen voranbringen werden. Der Quellcode und die Datensätze sind unter https://github.com/open-compass/CompassVerifier verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CompassVerifier: Ein einheitlicher und robuster Verifier für die Bewertung von LLMs und die Belohnung von Ergebnissen | Paper | HyperAI