vor 10 Monaten

Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

Zusammenfassung

Allgemeines Schließen stellt eine lang bestehende und herausfordernde Aufgabe im Bereich der künstlichen Intelligenz (KI) dar. Kürzliche Durchbrüche, exemplarisch vertreten durch große Sprachmodelle (LLMs)1,2 und die Chain-of-Thought-(CoT)-Prompting-Technik3, haben erhebliche Fortschritte bei grundlegenden Schließaufgaben erzielt. Allerdings hängt dieser Erfolg stark von umfangreichen menschlich annotierten Beispielen ab, und die Fähigkeiten der Modelle sind weiterhin unzureichend für komplexere Probleme. Hier zeigen wir, dass die Schließfähigkeit von LLMs durch reine Verstärkungslernverfahren (Reinforcement Learning, RL) angeregt werden kann, wodurch menschlich beschriftete Schließpfade entfallen. Der vorgeschlagene RL-Framework ermöglicht die emergente Entwicklung fortschrittlicher Schließmuster wie Selbstreflexion, Überprüfung und dynamische Strategieanpassung. Infolge dessen erreicht das trainierte Modell eine überlegene Leistung bei überprüfbareren Aufgaben wie Mathematik, Programmierwettbewerben und naturwissenschaftlich-technischen Bereichen (STEM), wobei es Modelle, die durch herkömmliches überwachtes Lernen an menschlichen Demonstrationen trainiert wurden, übertrifft. Darüber hinaus können die sich emergierenden Schließmuster großer Modelle systematisch genutzt werden, um die Schließfähigkeit kleinerer Modelle gezielt zu leiten und zu verbessern.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 10 Monaten

Verstärkendes Lernen

LLM

Überwachtes Feinabstimmen

Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 10 Monaten

Verstärkendes Lernen

LLM

Überwachtes Feinabstimmen

Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

DeepSeek-R1 motiviert die Schlussfolgerung in LLMs durch Verstärkungslernen | Paper | HyperAI

Command Palette

DeepSeek-R1 motiviert die Schlussfolgerung in LLMs durch Verstärkungslernen

Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeepSeek-R1 motiviert die Schlussfolgerung in LLMs durch Verstärkungslernen

Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeepSeek-R1 motiviert die Schlussfolgerung in LLMs durch Verstärkungslernen

Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters