HyperAIHyperAI

Command Palette

Search for a command to run...

Überdenken der Generalisierung beim Reasoning SFT: Eine bedingte Analyse von Optimierung, Daten und Model Capability

Zusammenfassung

Hier ist die Übersetzung des Textes ins Deutsche, unter Berücksichtigung der wissenschaftlichen Präzision und der Einhaltung Ihrer Vorgaben (insbesondere der Beibehaltung der englischen KI-Terminologie):Übersetzung:Ein vorherrschendes Narrativ im Bereich des LLM Post-Trainings besagt, dass Supervised Finetuning (SFT) lediglich auswendig lernt (Memorization), während Reinforcement Learning (RL) zur Generalisierung führt. Wir untersuchen diese Behauptung im Kontext von Reasoning-SFT mit langer Chain-of-Thought (CoT) Supervision neu und stellen fest, dass die domänenübergreifende Generalisierung nicht abwesend ist, sondern an Bedingungen geknüpft ist. Diese wird gemeinsam durch die Optimierungsdynamik, die Trainingsdaten und die Fähigkeiten des Base-Modells geformt.Einige der berichteten Misserfolge sind Artefakte einer Unteroptimierung: Die domänenübergreifende Performance sinkt zunächst ab, bevor sie durch ein verlängertes Training wieder ansteigt und sich verbessert (ein sogenanntes „Dip-and-Recovery“-Muster). Daher können Checkpoints aus einem zu frühen Trainingsstadium die Generalisierungsfähigkeit unterschätzen. Sowohl die Datenqualität als auch die Datenstruktur sind entscheidend: Lösungen von geringer Qualität beeinträchtigen die Generalisierung flächendeckend, während verifizierte, lange CoT-Traces konsistente domänenübergreifende Gewinne liefern.Die Modellkapazität ist essenziell: Stärkere Modelle internalisieren übertragbare prozedurale Muster (z. B. Backtracking) selbst aus einem einfachen arithmetischen Spiel, während schwächere Modelle lediglich die oberflächliche Redundanz (Verbosity) imitieren. Diese Generalisierung ist jedoch asymmetrisch: Während das Reasoning verbessert wird, sinkt die Sicherheit (Safety). Dies erfordert eine Neuausrichtung der Forschungsfrage – weg von der Frage, ob Reasoning-SFT generalisiert, hin zu der Frage, unter welchen Bedingungen und zu welchem Preis dies geschieht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp