DeepSeek-KI-Modell: Kosten, Training und transparente Schlussfolgerung durch Verstärkungslernen
Das chinesische KI-Unternehmen DeepSeek hat mit seinem Modell DeepSeek-R1 eine bedeutende Innovation im Bereich künstlicher Intelligenz vorgestellt, die weltweit Aufmerksamkeit erregte. Im Januar 2025 wurde das Modell veröffentlicht und löste kurzfristig eine Störung am US-Aktienmarkt aus, da Investoren die Bedeutung des Durchbruchs überschätzten. R1 zeichnet sich durch außergewöhnliche Fähigkeiten im Bereich des logischen Schließens aus, insbesondere in Mathematik und Programmierung. Im Gegensatz zu vielen anderen großen Sprachmodellen, die auf menschlich annotierten Beispielen trainiert werden, hat DeepSeek-R1 seine Fähigkeiten nicht durch das Nachahmen menschlicher Denkprozesse erlernt. Stattdessen wurde es mittels reiner Reinforcement-Learning (RL)-Technik entwickelt, bei der das Modell durch Belohnung für korrekte Antworten selbstständig effektive Strategien entwickelte – ein Prozess, der als „Trial-and-Error“ beschrieben wird. Das Modell wurde auf nur 512 Nvidia-H800-Chips trainiert, was unter Berücksichtigung der US-Exportkontrollen besonders bemerkenswert ist, da diese Chips seit 2023 nicht mehr nach China geliefert werden dürfen. Die Gesamtkosten für die Entwicklung beliefen sich auf etwa 294.000 US-Dollar, deutlich weniger als die zehn Millionen Dollar, die bei Modellen wie GPT-4 veranschlagt wurden. Diese Effizienz wurde durch eine Kombination aus automatisiertem RL und einer Technik namens Group Relative Policy Optimization (GRPO) erreicht. Dabei wurde das Modell nicht durch menschliche Anleitungen, sondern durch eine reine Belohnung für korrekte Antworten trainiert. Ein zentrales Ergebnis war die autonome Entwicklung komplexer Denkstrategien wie Selbstüberprüfung, Reflexion und Exploration alternativer Lösungswege – ohne dass diese explizit vorgegeben wurden. Diese Fähigkeiten entwickelten sich im Laufe des Trainings, wie die steigende Länge der Antworttexte und der plötzliche Anstieg der Verwendung von Ausdrücken wie „wait“ („warten“) zeigen, was auf ein „Aha-Erlebnis“ im Lernprozess hindeutet. DeepSeek-R1 wurde im Rahmen einer strengen Peer-Review-Veröffentlichung in der Fachzeitschrift Nature vorgestellt – ein seltener Schritt für ein KI-Modell. Dieser Prozess erhöht die Transparenz und Vertrauenswürdigkeit der Forschung. Das Modell ist als Open-Weight-Modell verfügbar und wurde bereits 10,9 Millionen Mal heruntergeladen, was es zum beliebtesten Modell auf Hugging Face macht. Um Lesbarkeit und Sprachkonsistenz zu verbessern, wurde anschließend ein mehrstufiger Trainingsprozess mit Supervised Fine-Tuning und zusätzlicher RL-Phase eingeführt. Dabei wurden auch allgemeine Sprachfähigkeiten wie Schreiben und Benutzerpräferenzen berücksichtigt. Trotz seiner Stärken gibt es noch Herausforderungen: Sprachmischung, mangelnde Token-Effizienz und Schwierigkeiten bei der Nutzung von Werkzeugen wie Suchmaschinen. Die Forscher betonen, dass RL-Methoden besonders für gut verifizierbare Aufgaben geeignet sind. Für komplexere, weniger messbare Aufgaben bleibt die Entwicklung zuverlässiger Belohnungssysteme eine zentrale Herausforderung. Dennoch stellt DeepSeek-R1 einen bedeutenden Fortschritt dar: Es zeigt, dass leistungsstarke KI-Systeme auch mit geringeren Ressourcen und ohne menschliche Vorbilder entwickelt werden können – mit potenziell weitreichenden Implikationen für die Zukunft der KI-Forschung.
