Mit Trainingskosten Von 294.000 US-Dollar Wurde DeepSeek-R1 Auf Dem Cover Von Nature Vorgestellt Und War Das Erste Mainstream-Großmodell, Das Das Peer-Review in Einer Maßgeblichen Zeitschrift Bestand Und Positive Kritiken erhielt.

Am 17. September erschienen die Forschungsergebnisse zu DeepSeek-R1 auf dem Cover von Nature, und diese Nachricht löste schnell hitzige Diskussionen in der weltweiten akademischen Gemeinschaft aus. Tatsächlich wurden die entsprechenden Forschungsergebnisse bereits im Januar dieses Jahres in Form eines Vorabdrucks auf arXiv veröffentlicht.Die Bedeutung der Veröffentlichung dieses Artikels in Nature liegt jedoch darin, dass er von dieser maßgeblichen Zeitschrift einem Peer-Review unterzogen wurde.Mit anderen Worten: Externe Experten erhalten nicht nur einseitige Informationen, sondern können im Rahmen eines kollaborativen Prozesses unter Aufsicht und Leitung einer unabhängigen dritten Partei (Herausgeber) Fragen stellen und weitere Informationen vom Autorenteam anfordern – ein Novum in der Branche.
Wichtiger noch: Im Gegensatz zum im Januar veröffentlichten Preprint-Artikel, der die Forschungsmethoden und die Leistung von DeepSeek-R1 anhand einer Reihe von Evaluierungsbenchmarks darlegte, wurden in diesem offiziell veröffentlichten Artikel die Trainingskosten des Modells genauer dargelegt. Laut einem Bericht von Nature News:Die Trainingskosten für DeepSeek-R1 betragen lediglich 294.000 US-Dollar.Obwohl DeepSeek rund 6 Millionen US-Dollar in das zugrunde liegende LLM investiert hat, auf dem das R1-Modell basiert, sind die Gesamtkosten immer noch weitaus niedriger als die zig Millionen Dollar, die in der Branche allgemein als für das Training des Kopfmodells erforderlich angesehen werden.
* Vorabdruckadresse:
https://hyper.ai/cn/papers/2504.07128

DeepSeek gab an, dass das Training von DeepSeek-R1-Zero 648 H800-GPUs nutzte und etwa 198 Stunden dauerte. Das Training von DeepSeek-R1 nutzte ebenfalls 648 H800-GPUs und dauerte etwa 4 Tage bzw. 80 Stunden. Die Erstellung des SFT-Datensatzes nahm ebenfalls etwa 5.000 GPU-Stunden in Anspruch. Die genauen Kosten sind in der obigen Abbildung dargestellt.
Groß angelegtes Verstärkungslernen verbessert die Denkfähigkeit
Die Bedeutung groß angelegter Modellschlussfolgerungsfähigkeiten liegt auf der Hand und ist zu einer zentralen Forschungsrichtung der Branche geworden. Der Erwerb von Denkfähigkeiten in der Vortrainingsphase erfordert jedoch oft enorme Rechenressourcen. In diesem Zusammenhang haben einige Studien gezeigt, dass LLM-Fähigkeiten durch CoT-Eingabeaufforderungen (Chain-of-Thought) effektiv verbessert werden können oder dass das Erlernen hochwertiger mehrstufiger Denktrajektorien in der Nachtrainingsphase die Leistung weiter verbessern kann. Obwohl diese Methoden effektiv sind, weisen sie dennoch offensichtliche Einschränkungen auf.Beispielsweise verringert der auf manueller Annotation beruhende Denkprozess die Skalierbarkeit und führt zu kognitiven Verzerrungen.Da das Modell zudem darauf beschränkt ist, die menschliche Denkweise nachzuahmen, ist seine Leistung im Wesentlichen durch die von Menschen bereitgestellten Beispiele eingeschränkt und es ist nicht in der Lage, bessere Denkwege zu erkunden, die über menschliche Denkmuster hinausgehen.
Um dieses Problem zu lösen, hat DeepSeek, basierend auf DeepSeek-V3 Base8, die Group Relative Policy Optimization (GRPO) als RL-Framework übernommen und die traditionelle Phase der überwachten Feinabstimmung (SFT) vor dem RL-Training übersprungen. Diese Designentscheidung beruhte auf den Annahmen des Teams:Künstlich definierte Denkmodi können die Modellerkundung einschränken, während uneingeschränktes RL-Training die Entstehung neuer Denkfähigkeiten im LLM fördern kann.
Darauf aufbauend entwickelte das Team DeepSeek-R1-Zero, das vielfältiges und komplexes Denkverhalten aufweist. Zur Lösung von Denkproblemen tendiert das Modell dazu, längere Antworten zu generieren, wobei jede Antwort Verifizierung, Reflexion und die Erforschung verschiedener Lösungen beinhaltet. Obwohl das Team dem Modell nicht explizit das Denken beigebracht hat,Dennoch hat es durch RL erfolgreich eine bessere Argumentationsstrategie erlernt.Das Forschungsteam verwendete Group Relative Policy Optimization (GRPO), einen Algorithmus, der ursprünglich vorgeschlagen wurde, um den Trainingsprozess zu vereinfachen und den Ressourcenverbrauch der Proximal Policy Optimization (PPO) zu reduzieren. Er erfordert kein Bewertungsmodell derselben Größe wie das Richtlinienmodell, sondern schätzt die Basislinie direkt aus dem Gruppenwert.
Darüber hinaus setzte das Team ein regelbasiertes Belohnungssystem ein, um Genauigkeit zu berechnen und Belohnungen zu formatieren. Aufbauend auf GRPO und Belohnungsdesign entwickelte das Team eine Vorlage, die DeepSeek-R1-Zero zunächst einen Inferenzprozess generieren und anschließend eine endgültige Antwort liefern lässt. Während des Trainings wurden anstelle von Eingabeaufforderungen spezifische Inferenzfragen verwendet.

Insbesondere gibt das Modell nach Erhalt einer Benutzerfrage zunächst den Denkprozess im Label „Denken“ aus und gibt dann die endgültige Antwort im Label „Antwort“, sodass es beim bestärkenden Lernen selbstständig effektive Denkpfade erkunden kann.Das Forschungsteam nutzte ein regelbasiertes Belohnungssystem, um die im Experiment von DeepSeek-R1-Zero gelieferten Antworten zu bewerten und so die Stabilität und Skalierbarkeit des Trainingsprozesses sicherzustellen.
Die Auswertungsergebnisse zeigen, dass sich der Pass@1-Score von DeepSeek-R1-Zero im Mathematikwettbewerb AIME 2024 von anfänglich 15,6% auf 77,9% deutlich verbessert hat. Bei Anwendung einer selbstkonsistenten Dekodierungsstrategie wird die Genauigkeit weiter auf 86,7% verbessert und übertrifft damit das durchschnittliche Niveau menschlicher Spieler.
Neben mathematischen Aufgaben schnitt das Modell auch bei Programmierwettbewerben und Problemen in Biologie, Physik und Chemie auf Hochschulniveau gut ab und bestätigte damit voll und ganz die Wirksamkeit des bestärkenden Lernens bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle.

Darüber hinaus zeigte DeepSeek-R1-Zero während des Reinforcement Learning nicht nur zunehmend stärkere Denkfähigkeiten mit zunehmendem Training, sondern auch deutliche selbstevolutionäre Eigenschaften. Experimentelle Daten zeigten, dass die durchschnittliche Inferenzlänge des Modells, das durch intrinsische Adaption gesteuert wird, während des Trainings kontinuierlich zunahm und der Inferenzpfad kontinuierlich überarbeitet wurde. Das Modell war in der Lage, bestehende Inferenzschritte während des Inferenzprozesses proaktiv zu pausieren, zu überprüfen und zu korrigieren, was reflektiertes Denken und die systematische Erforschung alternativer Lösungen ermöglichte.

Um außerdem Herausforderungen wie schlechte Lesbarkeit und Sprachvermischung zu bewältigen, hat das Forschungsteam DeepSeek-R1 entwickelt, um die Probleme der schlechten Lesbarkeit und Sprachverwirrung in DeepSeek-R1-Zero zu beheben. Der Arbeitsablauf ist wie folgt: * Basierend auf DeepSeek-V3 werden konversationsbasierte, dem menschlichen Denken entsprechende Kaltstartdaten gesammelt und in DeepSeek-R1 Dev1 eingegeben; * DeepSeek-R1 Dev1 führt basierend auf den Daten Verstärkungslernen und Sampling durch und DeepSeek-R1 Dev2 integriert schlussfolgernde und nicht schlussfolgernde Datensätze in den SFT-Prozess; * DeepSeek-R1 Dev3 fördert die zweite Phase des Verstärkungslernens, um die Nützlichkeit und Harmlosigkeit des Modells zu verbessern, und gibt schließlich die Antwort an DeepSeek-R1 aus.

Aus den experimentellen Ergebnissen geht hervor, dass DeepSeek-R1 im Vergleich zu DeepSeek-R1-Zero und DeepSeek-R1 Dev1 die Leistung bei der Befehlsausführung in jeder Entwicklungsphase deutlich verbessert und in den Benchmarks IF-Eval und Arena-Hard bessere Ergebnisse erzielt hat.

Das erste groß angelegte Modell, das die Peer-Review in einer renommierten Zeitschrift bestanden hat
Als erstes LLM-Modell, das einem Peer-Review unterzogen wurde, zierte die Forschungsarbeit DeepSeek-R1 nach ihrer Veröffentlichung das Cover von Nature. Im Artikel „Bring Us Your LLms: Why Peer Review Is Good for AI Models“ stellte Nature fest, dass Peer-Review eine wirksame Gegenmaßnahme zum Marketing-Hype in der KI-Branche sei. Fast alle gängigen groß angelegten KI-Modelle müssen noch einem unabhängigen Peer-Review unterzogen werden – eine Lücke, die „DeepSeek endlich geschlossen hat“.

Subbarao Kanbhampati, Forscher an der University of Arizona und ehemaliger Präsident der AAAI, sagte in diesem Zusammenhang, er habe an der Peer-Review teilgenommen und halte dies für einen guten Trend. Er hoffe, dass mehr innovative Modellentwickler seinem Beispiel folgen und die technischen Details der Peer-Review von KI-Modellen teilen würden.

Wind Info, ein US-amerikanisches Technologiemedium, berichtete, dass das Papier im Vergleich zur im Januar veröffentlichten Erstversion mehr Details zum Modelltrainingsprozess enthülle und das Problem der frühen Destillation direkt anspreche. Man kann sagen, dass DeepSeek-R1 ein Modell für transparentere und standardisiertere KI-Forschungspraktiken in der Zukunft bietet.

Quellen:
1. https://www.nature.com/articles/d41586-025-03015-6
2. https://www.nature.com/articles/d41586-025-02979-9
3. https://www.nature.com/articles/s41586-025-09422