HyperAI
Back to Headlines

Neues Modell ReasonFlux-PRM verbessert die Bewertung von Denkprozessen in großen Sprachmodellen.

vor 2 Tagen

ReasonFlux-PRM: Ein Pfadbewusstes Belohnungsmodell zur Verbesserung der Kette-von-Gedanken-Schlußfolgerung in LLMs Große Sprachmodelle (LLMs) werden zunehmend verwendet, um komplexe Aufgaben wie Mathematik und wissenschaftliches Denken durch strukturierte Kette-von-Gedanken-Ansätze zu lösen. Diese Modelle springen nicht einfach auf die Lösungen, sondern durchlaufen interne Schritte, die einem logischen Denkprozess ähneln. Dies ermöglicht eine genauere Schlussfolgerung und eine klarere Fehlersuche. Mit fortschreitender Sophistication der Modelle ist es entscheidend, nicht nur die endgültigen Antworten, sondern auch die dazwischenliegenden Schritte zu bewerten. Die Grenzen Traditioneller PRMs bei der Bewertung von Schlussfolgerungen Ein drängendes Problem besteht darin, dass die meisten aktuellen Belohnungsmodelle (PRMs) nur die endgültigen Antworten bewerten und den Prozess, der zu diesen führt, ignorieren. Vordergrundmodelle wie Deepseek-R1 erzeugen jedoch umfangreiche Denkpfade, bevor sie endgültige Antworten liefern. Diese Pfad-Antwort-Paare werden für das Training kleinerer Modelle wiederverwendet. Das Problem liegt darin, dass aktuelle PRMs nicht dafür ausgelegt sind, diese kompletten Pfade zu evaluieren. Diese Diskrepanz führt zu unzuverlässiger Überwachung, die die Leistung kleinerer Modelle, die auf Pfad-Antwort-Daten trainiert wurden, verschlechtern kann. Herausforderungen bei der Verarbeitung von Unstrukturierten Gedankenketten Traditionelle PRMs sind hauptsächlich für strukturierte, saubere Ausgaben kalibriert, nicht aber für die oft langen und unstrukturierten Gedankenketten, die fortschrittliche LLMs erzeugen. Sogar fortgeschrittene PRMs wie Qwen2.5-Math-PRM-72B zeigen eine begrenzte Fähigkeit, zwischen hoch- und niedriger Qualität von intermediären Schlussfolgerungen zu unterscheiden. Bei Anwendung auf Pfad-Antwort-Ausgaben von Gemini oder Deepseek-R1 produzieren diese Modelle häufig überlappende Belohnungswerte, was ein schwaches Unterscheidungsvermögen zeigt. Ihre geringe Sensibilität führt zu schlechter Datenauswahl für nachfolgende Feinabstimmungen, und Experimente bestätigen, dass Modelle, die auf PRM-ausgewählten Daten trainiert wurden, schlechter abschneiden als solche, die auf menschlichen Kuratoren basieren. Einführung von ReasonFlux-PRM zur Pfad-Level-Überwachung Forscher der University of Illinois Urbana-Champaign (UIUC), Princeton University, Cornell University und ByteDance Seed haben ReasonFlux-PRM eingeführt. ReasonFlux-PRM ist ein pfadbewusstes Modell, das sowohl die intermediate Schlussfolgerungsschritte als auch die endgültigen Antworten bewertet. Es integriert Schritt-Level- und Pfad-Level-Bewertungen, was eine nuanciertere Einschätzung der Schlussfolgerungsqualität ermöglicht. ReasonFlux-PRM wird an einer 10.000-Proben-Datensammlung von sorgfältig kuratierten Mathematik- und Wissenschaftsaufgaben ausgebildet, die explizit entwickelt wurden, um realistische Pfad-Antwort-Formate zu spiegeln. Technisches Framework von ReasonFlux-PRM Technisch gesehen arbeitet ReasonFlux-PRM, indem es jeden intermedialen Schritt in einem Pfad bezüglich seines Beitrags zur endgültigen Antwort bewertet. Es verwendet eine Referenzbelohnungsfunktion, die den Prompt, vorherige Denkschritte und die endgültige Ausgabe berücksichtigt, um Schritt-Level-Bewertungen zuzuweisen. Diese werden dann aggregiert, um einen Gesamt-Pfad-Belohnungswert zu erzeugen. Das Modell unterstützt verschiedene Anwendungen, darunter die Offline-Filterung hochwertiger Trainingsdaten, die dichte Bereitstellung von Belohnungen während des Verstärkungslernens mit GRPO-basierter Policy-Optimierung und die Best-of-N Testzeit-Auswahlfunktion zur Verbesserung der Inferenzqualität. Diese Fähigkeiten machen ReasonFlux-PRM flexibler und umfassender als frühere PRMs. Empirische Ergebnisse auf Schlussfolgerungsbenchmarks Bei Leistungsbeurteilungen in Aufgaben wie AIME, MATH500 und GPQA-Diamond zeigte ReasonFlux-PRM-7B bessere Ergebnisse als Qwen2.5-Math-PRM-72B und menschlich kuratierte Daten in mehreren Schlüsselindikatoren. Speziell erzielte es einen Genauigkeitsgewinn von 12,1% bei überwachtem Feinabstimmung, eine Verbesserung von 4,5% während des Verstärkungslernens und eine Steigerung von 6,3% während des Testzeitskalierens. Diese Gewinne sind besonders beachtlich, wenn man bedenkt, dass ReasonFlux-PRM in der Modellgröße kleiner ist. Tabelle 1 zeigt, dass das Qwen2.5-14B-Instruct-Modell, wenn es auf Daten trainiert wurde, die von ReasonFlux-PRM ausgewählt wurden, Leistungslevels erreichte, die denen menschlich kuratierter Baselines nahekommen oder sogar übertreffen. Im Gegensatz dazu führten andere PRMs zu beträchtlichen Abfällen von bis zu 26,6% in bestimmten Benchmarks. Auswirkungen und Zukunftsperspektiven von ReasonFlux-PRM Diese Forschung behebt eine wichtige Begrenzung im Training und der Evaluierung moderner Schlussfolgerungsmodelle. Durch die Überwachung von Denkpäden und endgültigen Antworten gleichermaßen verbessert ReasonFlux-PRM die Qualität der Trainingsdaten und die Zuverlässigkeit der Modellausgaben. Es legt einen neuen Grundstein für die systematische Evaluierung und Verbesserung von Schlussfolgerungsprozessen in großen Modellen. Brancheninsider sehen in ReasonFlux-PRM eine wichtige Innovation, die die Entwicklung von LLMs in Richtung präziserer und zuverlässigerer Schlussfolgerungen erheblich voranbringen kann. Die Kombination von Schritt- und Pfad-Level-Bewertungen bietet ein umfassendes Werkzeug für die Optimierung der Trainingsdaten und damit die Leistungsfähigkeit der Modelle. Die Forschergruppe umfasst renommierte Institutionen, was das Potenzial dieser Arbeit unterstreicht.

Related Links