HyperAIHyperAI

Command Palette

Search for a command to run...

DeepSeek-R1 motiviert die Schlussfolgerung in LLMs durch Verstärkungslernen

Daya Guo Dejian Yang Haowei Zhang Junxiao Song Peiyi Wang et al

Abstract

Allgemeines Schließen stellt eine lang bestehende und herausfordernde Aufgabe im Bereich der künstlichen Intelligenz (KI) dar. Kürzliche Durchbrüche, exemplarisch vertreten durch große Sprachmodelle (LLMs)1,2 und die Chain-of-Thought-(CoT)-Prompting-Technik3, haben erhebliche Fortschritte bei grundlegenden Schließaufgaben erzielt. Allerdings hängt dieser Erfolg stark von umfangreichen menschlich annotierten Beispielen ab, und die Fähigkeiten der Modelle sind weiterhin unzureichend für komplexere Probleme. Hier zeigen wir, dass die Schließfähigkeit von LLMs durch reine Verstärkungslernverfahren (Reinforcement Learning, RL) angeregt werden kann, wodurch menschlich beschriftete Schließpfade entfallen. Der vorgeschlagene RL-Framework ermöglicht die emergente Entwicklung fortschrittlicher Schließmuster wie Selbstreflexion, Überprüfung und dynamische Strategieanpassung. Infolge dessen erreicht das trainierte Modell eine überlegene Leistung bei überprüfbareren Aufgaben wie Mathematik, Programmierwettbewerben und naturwissenschaftlich-technischen Bereichen (STEM), wobei es Modelle, die durch herkömmliches überwachtes Lernen an menschlichen Demonstrationen trainiert wurden, übertrifft. Darüber hinaus können die sich emergierenden Schließmuster großer Modelle systematisch genutzt werden, um die Schließfähigkeit kleinerer Modelle gezielt zu leiten und zu verbessern.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DeepSeek-R1 motiviert die Schlussfolgerung in LLMs durch Verstärkungslernen | Papers | HyperAI