Command Palette
Search for a command to run...
Überdenken der Generalisierung beim Reasoning SFT: Eine bedingte Analyse von Optimierung, Daten und Model Capability
Überdenken der Generalisierung beim Reasoning SFT: Eine bedingte Analyse von Optimierung, Daten und Model Capability
Zusammenfassung
Hier ist die Übersetzung des Textes ins Deutsche, unter Berücksichtigung der wissenschaftlichen Präzision und der Einhaltung Ihrer Vorgaben (insbesondere der Beibehaltung der englischen KI-Terminologie):Übersetzung:Ein vorherrschendes Narrativ im Bereich des LLM Post-Trainings besagt, dass Supervised Finetuning (SFT) lediglich auswendig lernt (Memorization), während Reinforcement Learning (RL) zur Generalisierung führt. Wir untersuchen diese Behauptung im Kontext von Reasoning-SFT mit langer Chain-of-Thought (CoT) Supervision neu und stellen fest, dass die domänenübergreifende Generalisierung nicht abwesend ist, sondern an Bedingungen geknüpft ist. Diese wird gemeinsam durch die Optimierungsdynamik, die Trainingsdaten und die Fähigkeiten des Base-Modells geformt.Einige der berichteten Misserfolge sind Artefakte einer Unteroptimierung: Die domänenübergreifende Performance sinkt zunächst ab, bevor sie durch ein verlängertes Training wieder ansteigt und sich verbessert (ein sogenanntes „Dip-and-Recovery“-Muster). Daher können Checkpoints aus einem zu frühen Trainingsstadium die Generalisierungsfähigkeit unterschätzen. Sowohl die Datenqualität als auch die Datenstruktur sind entscheidend: Lösungen von geringer Qualität beeinträchtigen die Generalisierung flächendeckend, während verifizierte, lange CoT-Traces konsistente domänenübergreifende Gewinne liefern.Die Modellkapazität ist essenziell: Stärkere Modelle internalisieren übertragbare prozedurale Muster (z. B. Backtracking) selbst aus einem einfachen arithmetischen Spiel, während schwächere Modelle lediglich die oberflächliche Redundanz (Verbosity) imitieren. Diese Generalisierung ist jedoch asymmetrisch: Während das Reasoning verbessert wird, sinkt die Sicherheit (Safety). Dies erfordert eine Neuausrichtung der Forschungsfrage – weg von der Frage, ob Reasoning-SFT generalisiert, hin zu der Frage, unter welchen Bedingungen und zu welchem Preis dies geschieht.