HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor einem Tag

OPV: outcomebasiertes Prozessverifizierungsverfahren für eine effiziente lange Ketten-des-Denkens-Verifizierung

OPV: outcomebasiertes Prozessverifizierungsverfahren für eine effiziente lange Ketten-des-Denkens-Verifizierung

Abstract

Große Sprachmodelle (LLMs) haben durch Reinforcement Learning mit überprüfbarer Belohnung (RLVR) erhebliche Fortschritte bei der Lösung komplexer Schlussfolgerungsaufgaben erzielt. Diese Entwicklung ist eng verbunden mit der automatisierten Überwachung durch zuverlässige Verifikatoren. Derzeitige outcome-basierte Verifikatoren (OVs) sind jedoch nicht in der Lage, die unzuverlässigen Zwischenschritte in langen Denkketten (CoTs) zu überprüfen. Gleichzeitig haben aktuelle process-basierte Verifikatoren (PVs) Schwierigkeiten, Fehler in komplexen, langen CoTs zuverlässig zu erkennen, was auf die Knappheit hochwertiger Annotationen zurückzuführen ist, die aufgrund der erheblichen Kosten menschlicher Annotationen begrenzt sind. Daher schlagen wir den outcome-basierten Process-Verifikator (OPV) vor, der den Schlussfolgerungsprozess zusammengefasster Ergebnisse aus langen CoTs überprüft, um sowohl eine genaue als auch effiziente Verifikation zu ermöglichen und eine großskalige Annotation zu unterstützen. Um den vorgeschlagenen Verifikator zu stärken, verwenden wir einen iterativen aktiven Lernansatz mit Expertenannotationen, um die Verifikationsfähigkeit des OPV schrittweise mit geringeren Annotationskosten zu verbessern. Konkret werden in jeder Iteration die unsichersten Fälle des aktuellen besten OPV annotiert und anschließend zur Trainings eines neuen OPV mittels Rejection Fine-Tuning (RFT) und RLVR für die nächste Runde genutzt. Umfangreiche Experimente belegen die herausragende Leistungsfähigkeit und breite Anwendbarkeit des OPV. Er erreicht neue SOTA-Ergebnisse auf unserem gehaltenen OPV-Bench, wobei er deutlich größere Open-Source-Modelle wie Qwen3-Max-Preview mit einem F1-Score von 83,1 gegenüber 76,3 übertrifft. Zudem erkennt OPV effektiv falsch-positive Ergebnisse in synthetischen Datensätzen und stimmt eng mit Expertenbewertungen überein. Bei der Zusammenarbeit mit Policy-Modellen erzielt OPV konsistent Leistungssteigerungen, beispielsweise erhöht sich die Genauigkeit von DeepSeek-R1-Distill-Qwen-32B auf AIME2025 von 55,2 % auf 73,3 %, wenn der Rechenaufwand steigt.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp