vor 6 Monaten

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang

Zusammenfassung

Die Antwortüberprüfung ist nicht nur entscheidend für die Bewertung großer Sprachmodelle (LLMs), indem deren unstrukturierte Ausgaben mit Standardantworten abgeglichen werden, sondern dient auch als Belohnungsmodell zur Steuerung der Optimierung von LLMs. Die meisten Evaluationsframeworks basieren entweder auf regulierten Abgleichverfahren oder nutzen allgemeine LLMs zur Antwortüberprüfung, wodurch umfangreiche, wiederholte Anpassungen von Regex-Regeln oder Bewertungs-Prompts erforderlich sind. Zwei grundlegende Einschränkungen bestehen bei derzeitigen Methoden: Erstens fehlt es an umfassenden Benchmarks, die die Überprüfungsleistung verschiedener LLMs systematisch bewerten; zweitens befindet sich die Entwicklung von Verifizierungsmodellen noch in einem frühen Stadium, wobei bestehende Ansätze sowohl an Robustheit zur Bewältigung komplexer Randfälle als auch an Verallgemeinerungsfähigkeit über verschiedene Domänen hinweg mangeln. In dieser Arbeit präsentieren wir CompassVerifier, ein genaues und robustes leichtgewichtiges Verifizierungsmodell für die Evaluierung und Belohnung von Ergebnissen. Es zeigt Kompetenz über mehrere Domänen hinweg – einschließlich Mathematik, Wissensbasis und vielfältige Schlussfolgerungsaufgaben – und ist in der Lage, verschiedene Antwortformate zu verarbeiten, darunter Aufgaben mit mehreren Teilproblemen, Formeln sowie sequenzielle Antworten, während es gleichzeitig abnorme oder ungültige Antworten effektiv erkennt. Wir stellen den VerifierBench-Benchmark vor, der aus Modellausgaben mehrerer Datensourcen zusammengestellt wurde und durch manuelle Analyse von Metafehlermustern ergänzt wurde, um CompassVerifier zu verbessern. Wir gehen davon aus, dass CompassVerifier und VerifierBench die Forschung in Bereichen wie Antwortüberprüfung, Evaluierungsprotokolle und Verstärkendes Lernen voranbringen werden. Der Quellcode und die Datensätze sind unter https://github.com/open-compass/CompassVerifier verfügbar.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

CompassVerifier: Ein einheitlicher und robuster Verifier für die Bewertung von LLMs und die Belohnung von Ergebnissen

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CompassVerifier: Ein einheitlicher und robuster Verifier für die Bewertung von LLMs und die Belohnung von Ergebnissen

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CompassVerifier: Ein einheitlicher und robuster Verifier für die Bewertung von LLMs und die Belohnung von Ergebnissen

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang

Shudong Liu Hongwei Liu Junnan Liu Linchen Xiao Songyang Gao Chengqi Lyu Yuzhe Gu Wenwei Zhang Derek F. Wong Songyang Zhang