HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

DeepSeek-R1 motiviert die Schlussfolgerung in LLMs durch Verstärkungslernen

Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

DeepSeek-R1 motiviert die Schlussfolgerung in LLMs durch Verstärkungslernen

Abstract

Allgemeines Schließen stellt eine lang bestehende und herausfordernde Aufgabe im Bereich der künstlichen Intelligenz (KI) dar. Kürzliche Durchbrüche, exemplarisch vertreten durch große Sprachmodelle (LLMs)1,2 und die Chain-of-Thought-(CoT)-Prompting-Technik3, haben erhebliche Fortschritte bei grundlegenden Schließaufgaben erzielt. Allerdings hängt dieser Erfolg stark von umfangreichen menschlich annotierten Beispielen ab, und die Fähigkeiten der Modelle sind weiterhin unzureichend für komplexere Probleme. Hier zeigen wir, dass die Schließfähigkeit von LLMs durch reine Verstärkungslernverfahren (Reinforcement Learning, RL) angeregt werden kann, wodurch menschlich beschriftete Schließpfade entfallen. Der vorgeschlagene RL-Framework ermöglicht die emergente Entwicklung fortschrittlicher Schließmuster wie Selbstreflexion, Überprüfung und dynamische Strategieanpassung. Infolge dessen erreicht das trainierte Modell eine überlegene Leistung bei überprüfbareren Aufgaben wie Mathematik, Programmierwettbewerben und naturwissenschaftlich-technischen Bereichen (STEM), wobei es Modelle, die durch herkömmliches überwachtes Lernen an menschlichen Demonstrationen trainiert wurden, übertrifft. Darüber hinaus können die sich emergierenden Schließmuster großer Modelle systematisch genutzt werden, um die Schließfähigkeit kleinerer Modelle gezielt zu leiten und zu verbessern.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DeepSeek-R1 motiviert die Schlussfolgerung in LLMs durch Verstärkungslernen | Forschungsarbeiten | HyperAI