vor 5 Stunden

Qihan Ren Peng Wang Ruikun Cai Shuai Shao Dadi Guo Yuejin Xie Yafu Li Quanshi Zhang Xia Hu Jing Shao

Zusammenfassung

Hier ist die Übersetzung des Textes ins Deutsche, unter Berücksichtigung der wissenschaftlichen Präzision und der Einhaltung Ihrer Vorgaben (insbesondere der Beibehaltung der englischen KI-Terminologie):Übersetzung:Ein vorherrschendes Narrativ im Bereich des LLM Post-Trainings besagt, dass Supervised Finetuning (SFT) lediglich auswendig lernt (Memorization), während Reinforcement Learning (RL) zur Generalisierung führt. Wir untersuchen diese Behauptung im Kontext von Reasoning-SFT mit langer Chain-of-Thought (CoT) Supervision neu und stellen fest, dass die domänenübergreifende Generalisierung nicht abwesend ist, sondern an Bedingungen geknüpft ist. Diese wird gemeinsam durch die Optimierungsdynamik, die Trainingsdaten und die Fähigkeiten des Base-Modells geformt.Einige der berichteten Misserfolge sind Artefakte einer Unteroptimierung: Die domänenübergreifende Performance sinkt zunächst ab, bevor sie durch ein verlängertes Training wieder ansteigt und sich verbessert (ein sogenanntes „Dip-and-Recovery“-Muster). Daher können Checkpoints aus einem zu frühen Trainingsstadium die Generalisierungsfähigkeit unterschätzen. Sowohl die Datenqualität als auch die Datenstruktur sind entscheidend: Lösungen von geringer Qualität beeinträchtigen die Generalisierung flächendeckend, während verifizierte, lange CoT-Traces konsistente domänenübergreifende Gewinne liefern.Die Modellkapazität ist essenziell: Stärkere Modelle internalisieren übertragbare prozedurale Muster (z. B. Backtracking) selbst aus einem einfachen arithmetischen Spiel, während schwächere Modelle lediglich die oberflächliche Redundanz (Verbosity) imitieren. Diese Generalisierung ist jedoch asymmetrisch: Während das Reasoning verbessert wird, sinkt die Sicherheit (Safety). Dies erfordert eine Neuausrichtung der Forschungsfrage – weg von der Frage, ob Reasoning-SFT generalisiert, hin zu der Frage, unter welchen Bedingungen und zu welchem Preis dies geschieht.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Stunden

Überwachtes Feinabstimmen

LLM

Reasoning

Qihan Ren Peng Wang Ruikun Cai Shuai Shao Dadi Guo Yuejin Xie Yafu Li Quanshi Zhang Xia Hu Jing Shao

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 5 Stunden

Überwachtes Feinabstimmen

LLM

Reasoning

Qihan Ren Peng Wang Ruikun Cai Shuai Shao Dadi Guo Yuejin Xie Yafu Li Quanshi Zhang Xia Hu Jing Shao

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Überdenken der Generalisierung beim Reasoning SFT: Eine bedingte Analyse von Optimierung, Daten und Model Capability

Qihan Ren Peng Wang Ruikun Cai Shuai Shao Dadi Guo Yuejin Xie Yafu Li Quanshi Zhang Xia Hu Jing Shao1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Überdenken der Generalisierung beim Reasoning SFT: Eine bedingte Analyse von Optimierung, Daten und Model Capability

Qihan Ren Peng Wang Ruikun Cai Shuai Shao Dadi Guo Yuejin Xie Yafu Li Quanshi Zhang Xia Hu Jing Shao1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Überdenken der Generalisierung beim Reasoning SFT: Eine bedingte Analyse von Optimierung, Daten und Model Capability

Qihan Ren Peng Wang Ruikun Cai Shuai Shao Dadi Guo Yuejin Xie Yafu Li Quanshi Zhang Xia Hu Jing Shao1 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Qihan Ren Peng Wang Ruikun Cai Shuai Shao Dadi Guo Yuejin Xie Yafu Li Quanshi Zhang Xia Hu Jing Shao

Qihan Ren Peng Wang Ruikun Cai Shuai Shao Dadi Guo Yuejin Xie Yafu Li Quanshi Zhang Xia Hu Jing Shao

Qihan Ren Peng Wang Ruikun Cai Shuai Shao Dadi Guo Yuejin Xie Yafu Li Quanshi Zhang Xia Hu Jing Shao