HyperAIHyperAI

Command Palette

Search for a command to run...

vor 23 Tagen

Meta-Awareness verbessert Schlussfolgerungsmodelle: Selbstausrichtungsverstärkendes Lernen

Yoonjeon Kim Doohyuk Jang Eunho Yang

Meta-Awareness verbessert Schlussfolgerungsmodelle: Selbstausrichtungsverstärkendes Lernen

Abstract

Neuere Studien zu Schlussfolgerungsmodellen untersuchen die Meta-Awareness von Sprachmodellen, also die Fähigkeit, selbst zu erkennen, wie man denken sollte. Wir argumentieren, dass große Schlussfolgerungsmodelle diese Meta-Awareness aufgrund einer gravierenden Diskrepanz zwischen echten Rollouts und vorhergesagten Meta-Informationen vermissen. Wir vermuten, dass eine Ausrichtung der Meta-Vorhersage an die tatsächlichen Rollouts zu erheblichen Leistungssteigerungen führen wird. Um diese Hypothese zu überprüfen, entwickeln wir eine Trainingspipeline, die die Meta-Awareness durch Selbst-Ausrichtung (MASA) verstärkt, und zeigen, dass eine verbesserte Meta-Awareness direkt zu höherer Genauigkeit führt. Im Gegensatz zu bestehenden meta-kognitiven Schlussfolgerungsmodellen benötigt unsere Methode keine externen Trainingsquellen, sondern nutzt stattdessen selbst generierte Signale zur Schulung der Meta-Awareness. Zudem ermöglicht unsere Methode eine effiziente Trainingsdurchführung durch i) die Filterung von Prompten mit Nullvarianz, die entweder trivial sind oder unlösbar, und ii) das Abbrechen langer Rollouts, wenn diese unwahrscheinlich sind, zu einer korrekten Antwort zu führen. Die Ergebnisse sind vielversprechend: Unsere Strategie erzielt erhebliche Verbesserungen sowohl in der Genauigkeit als auch in der Trainingseffizienz bei innerhalb der Domäne liegenden Aufgaben und zeigt starke Generalisierungsfähigkeit auf außerhalb der Domäne liegende Benchmarks. Konkret kann unsere Methode die GRPO-Trainingsgeschwindigkeit um mehr als 1,28-fach beschleunigen, um die gleiche Leistung zu erreichen, und erreicht eine Genauigkeitssteigerung um 19,3 % auf AIME25 sowie durchschnittlich 6,2 % mehr Genauigkeit über sechs mathematische Benchmarks. Die Verwendung von meta-kognitiver Anleitung verbessert die Generalisierung außerhalb der Domäne und führt zu einer Steigerung um 3,87 % auf GPQA-Diamond sowie zu einem durchschnittlichen Genauigkeitszuwachs von 2,08 % über 13 Benchmarks, die logische, wissenschaftliche und Programmierbereiche abdecken.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Meta-Awareness verbessert Schlussfolgerungsmodelle: Selbstausrichtungsverstärkendes Lernen | Forschungsarbeiten | HyperAI