DeepSeek präsentiert bahnbrechende Methode zur effizienten Skalierung von KI-Modellen
China’s AI startup DeepSeek hat mit der Veröffentlichung einer neuen Trainingsmethode für große Sprachmodelle (LLMs) einen Meilenstein gesetzt, der das Potenzial hat, die Entwicklung grundlegender KI-Modelle nachhaltig zu verändern. In einer am Mittwoch veröffentlichten Forschungsarbeit, die von Firmengründer Liang Wenfeng mitverfasst wurde, stellt das Unternehmen „Manifold-Constrained Hyper-Connections“ (mHC) vor – eine innovative Trainingsstrategie, die es ermöglicht, Modelle effizienter und stabiler zu skalieren. Bei wachsenden Modellgrößen steigt traditionell die Komplexität interner Informationsflüsse, was zu Instabilitäten und Leistungsabfällen führen kann. mHC adressiert dieses Problem, indem es den Austausch von Informationen innerhalb des Modells in einer kontrollierten, geometrisch strukturierten Weise ermöglicht. Dadurch bleibt die Trainingsstabilität erhalten, ohne dass die Rechenleistung stark ansteigt. Analysten sehen in der Methode einen „beeindruckenden Durchbruch“. Wei Sun von Counterpoint Research betont, dass DeepSeek durch die Kombination verschiedener Techniken die Kosten für das Training deutlich senken konnte, während gleichzeitig die Leistungsfähigkeit stark zunahm. Sie interpretiert die Publikation als Beweis für die interne Innovationskraft des Unternehmens, das in der Lage sei, unkonventionelle Forschungsansätze schnell zu testen und umzusetzen. Die Methode könnte DeepSeek helfen, die bisherigen Rechenbeschränkungen zu umgehen und neue Sprünge in der KI-Intelligenz zu ermöglichen – ähnlich wie bei seinem „Sputnik-Moment“ im Januar 2025, als das R1-Modell mit herausragender Leistung bei deutlich geringeren Kosten gegenüber Konkurrenten wie OpenAI’s o1 auftauchte. Lian Jye Su von Omdia sieht in der Öffentlichmachung der Forschung ein Zeichen für wachsendes Selbstvertrauen der chinesischen KI-Industrie. Die Bereitschaft, zentrale Erkenntnisse zu teilen, sei nun ein strategischer Vorteil, der die Branche insgesamt voranbringen könnte. Andere Labore werden voraussichtlich eigene Versionen der mHC-Technik entwickeln. Die Veröffentlichung fällt zeitlich in die Phase vor dem erwarteten Release des nächsten Flagship-Modells R2, das nach Berichten von The Information aufgrund unzureichender Leistung und Knappheit an High-End-AI-Chips verschoben wurde. Obwohl die Studie nicht direkt auf R2 eingeht, weisen Experten auf die Parallele zu früheren Veröffentlichungen vor dem R1-Launch hin. Sun vermutet, dass die Technik eher in ein neues Modell wie V4 integriert wird, anstatt ein eigenständiges R2 hervorzubringen, da die R1-Verbesserungen bereits in der V3-Generation umgesetzt wurden. Trotz der technologischen Fortschritte bleibt DeepSeek in der globalen Marktdistribution hinter etablierten Akteuren wie OpenAI oder Google zurück, insbesondere in westlichen Märkten. Wie Alistair Barr von Business Insider kritisch feststellt, zählt nicht nur die Technologie, sondern auch die Verbreitung. Die Zukunft des Unternehmens hängt daher nicht nur von innovativen Methoden ab, sondern auch von der Fähigkeit, seine Modelle breit und effektiv zu verbreiten. Insgesamt markiert die mHC-Veröffentlichung einen Wendepunkt: DeepSeek positioniert sich nicht nur als technologischer Innovator, sondern als Akteur, der die Grundlagen der KI-Entwicklung neu definiert – mit Auswirkungen, die weit über China hinausreichen.
