HyperAI
Back to Headlines

ASTRO verbessert Llama 3s Rechenfertigkeiten um 16% bis 20%

vor 2 Tagen

Können wir die Denkfähigkeit von Llama 3 allein durch Nachbearbeitung verbessern? ASTRO zeigt Verbesserungen von +16% bis +20% bei Benchmarks Die Verbesserung der Denkfähigkeit von großen Sprachmodellen (LLMs) ohne architekturale Änderungen ist eine wesentliche Herausforderung bei der Weiterentwicklung der KI-Einrichtung und -Nutzbarkeit. Forscher von Meta AI und der University of Washington haben ASTRO—Autoregressive Search-Taught Reasoner—eingeführt, einen neuen Framework zur Nachbearbeitung, der das Denken von Llama-3.1-70B-Instruct verbessern soll. ASTRO ist einzigartig darin, den Modellen beizubringen, in-situ Suchvorgänge, Selbstreflexion und Rückverfolgung durchzuführen, Mechanismen, die oft mit menschlichem Problemlösen und traditionellen symbolischen Suchalgorithmen in Verbindung gebracht werden. Methodik von ASTRO: Suchgesteuerte Ketten-Denkvorgangs-Generierung ASTRO beginnt mit einer Monte-Carlo-Baumsuche (MCTS) über mathematische Problemlösungswege. Diese Suche untersucht sowohl korrekte als auch inkorrekte Denkpfade. Das Kerninnovationsmoment liegt in der Prozedurklonung: gesamte Suchbäume werden in lange Ketten-Denkvorgänge (CoT) linearisiert, die Fehlschläge und Wiederherstellungen durch Selbstreflexion und Rückverfolgung kodieren. Diese linearisierten Spuren werden in natürliche Sprache umgeschrieben und dienen als Grundlage für die überwachte Feinabstimmung (SFT). Das Ergebnis ist ein Modell, das nicht nur Schritt für Schritt Probleme löst, sondern seine Lösungspfade ständig neu bewertet—oft rückgängig macht es nach einer Selbstbewertung, um Zwischenfehler zu korrigieren. Zum Beispiel kann das Modell mit Phrasen wie "Lass uns zurückgehen zu dem Punkt, an dem wir die Gleichung aufgestellt haben" eingreifen, wenn sein internes Vertrauen sinkt. Überwachte Feinabstimmung: Einfluss von Suchvorgängen ASTRO führt eine überwachte Feinabstimmung (SFT) von Llama-3.1-70B-Instruct durch, basierend auf 36.100 sorgfältig ausgewählten CoT-Lösungen aus Datensätzen wie MATH, AMC/AIME und AoPS. Das durch ASTRO-SFT trainierte Modell erreicht: Starke Verbesserungen in mathematischen Leistungen bei verschiedenen wettbewerbsfähigen Benchmarks. Wettbewerbsfähige oder sogar bessere Ergebnisse im Vergleich zu Baseline-Modellen und SPOC/Step-KTO-Varianten, die ohne explizite Suchvorgänge trainiert wurden. Wichtig ist, dass bereits die SFT—ohne verstärkendes Lernen—zu Leistungssteigerungen führt, indem sie das Modell mit suchstrukturierten Denkvorgangsdaten vertraut macht. Verstärkendes Lernen mit suchbewusster Initialisierung ASTRO führt anschließend verstärkendes Lernen (RL) durch, indem es mit dem SFT-Checkpoint initialisiert wird und einen RL-Schleifenprozess mithilfe einer modifizierten Gruppenrelativen Politikoptymierung (GRPO) durchläuft. Im Gegensatz zum standardmäßigen präferenzbasierten RL verwendet ASTRO verifizierbare Belohnungssignale (+1 für korrekt, -1 für inkorrekt) auf 8.700 moderat schwierigen Aufgaben. Während des Trainings wächst die Generierung von CoTs von etwa 1.800 auf etwa 6.000 Token, was eine tiefere interne Exploration zeigt. Das resultierende ASTRO-RL-Modell erreicht: Ergebnisse, die mit Modellen mit höheren Parameterzahlen wettbewerbsfähig sind oder diese sogar übertreffen. Bestätigung der Bedeutung der suchbewussten Initialisierung. Rückverfolgungsverhalten korreliert mit erfolgreicher Problemlösung Eine bemerkenswerte empirische Beobachtung ist die positive Korrelation zwischen der Häufigkeit des Rückverfolgungsverhaltens und der Leistung. Während des Trainings zeigt ASTRO-RL mehr selbstkorrigierende Aktionen und tiefergehende Explorationswege. Die Pearson-Korrelationskoeffizienten über verschiedene Benchmarks liegen über 0,8, was darauf hinweist, dass Selbstreflexion und Rückverfolgung nicht nur ästhetische Verhaltensweisen sind, sondern funktional mit einer besseren Genauigkeit verbunden. Vergleichende Erkenntnisse und breiterer Einfluss Steuerungsversuche, die ASTRO mit Modellen vergleichen, die direkt auf CoT-Lösungen (ohne Suchvorgänge) trainiert wurden, zeigen, dass ASTRO konsistent überlegen ist. Zum Beispiel übertrifft ASTRO-RL Direct-RL in: Mathematischen Benchmarks. Tiefergehender Exploration und Selbstkorrektur. Darüber hinaus können die Ausgaben von ASTRO als gerichtete Graphen visualisiert werden, wobei Knoten als Denkschritte und Kanten die Übergänge, Reflexionen und Korrekturen darstellen—was die Interpretierbarkeit verbessert. Fazit ASTRO zeigt, dass LLMs wie Llama 3 effektiver lernen können, nicht durch größere Modelle oder längeres Vortrainieren, sondern durch grundsätzliche Nachbearbeitungstechniken. Indem es Suchalgorithmen in natürliche Sprache übersetzt, ermöglicht ASTRO Modellen, vor der Antwort nachzudenken, ihre eigenen Schritte zu hinterfragen und sich während des Denkvorgangs selbst zu korrigieren. Dieser Ansatz setzt neue Maßstäbe für die Feinabstimmung offener LLMs, um menschenähnliches Denken durch search-inspirierte Verhaltensweisen zu erreichen. Industrie-Insider betrachten ASTRO als wichtigen Meilenstein in der Entwicklung von KI-Technologien, die komplexere Denkaufgaben bewältigen können. Meta AI, bekannt für innovative Ansätze in der KI-Forschung, hat mit ASTRO wieder einmal gezeigt, dass Fortschritte durch kreative Methoden erzielt werden können, ohne die Modellgröße zu erhöhen. Die Fähigkeit, selbstkorrigierendes Verhalten zu trainieren, könnte zukünftige KI-Modelle nicht nur effizienter machen, sondern auch verständlicher und nutzbarer für eine breitere Anwendung.

Related Links