HyperAIHyperAI

Command Palette

Search for a command to run...

Bitte überprüfen wir Schritt für Schritt.

Hunter Lightman Vineet Kosaraju Yura Burda Harri Edwards Bowen Baker Teddy Lee Jan Leike John Schulman Ilya Sutskever Karl Cobbe

Zusammenfassung

In den letzten Jahren haben große Sprachmodelle erheblich an ihrer Fähigkeit zur Durchführung komplexer mehrschrittiger Reasoning-Prozesse verbessert. Dennoch produzieren selbst state-of-the-art-Modelle regelmäßig logische Fehler. Um zuverlässigere Modelle zu trainieren, können wir entweder auf Ergebnisüberwachung zurückgreifen, die Feedback für das endgültige Ergebnis liefert, oder auf Prozessüberwachung, die Feedback für jeden einzelnen Zwischenschritt bereitstellt. Angesichts der Bedeutung der Entwicklung zuverlässiger Modelle und der hohen Kosten menschlicher Feedback-Generierung ist es entscheidend, beide Methoden sorgfältig miteinander zu vergleichen. Obwohl bereits erste Arbeiten diesen Vergleich aufgenommen haben, bleiben viele Fragen offen. In unserer eigenen Untersuchung zeigen wir, dass die Prozessüberwachung die Ergebnisüberwachung bei der Ausbildung von Modellen zur Lösung von Aufgaben aus dem anspruchsvollen MATH-Datensatz deutlich übertrifft. Unser prozessüberwachtes Modell löst 78 % der Aufgaben einer repräsentativen Teilmenge des MATH-Testsets. Zudem zeigen wir, dass aktives Lernen die Effizienz der Prozessüberwachung erheblich steigert. Um die Forschung in diesem Bereich zu unterstützen, veröffentlichen wir zudem PRM800K, den vollständigen Datensatz mit 800.000 menschlich generierten Feedback-Markierungen auf Schritt-Ebene, die zur Ausbildung unseres besten Belohnungsmodells verwendet wurden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp