HyperAI
Back to Headlines

Neue DeepSeek-Variante ist 200% schneller und kompakter

vor 14 Tagen

Es ist etwas mehr als einen Monat her, seit die chinesische KI-Start-up DeepSeek, ein Ableger des hongkongbasierten Investmentmanagers High-Flyer Capital Management, die neueste Version seines Open-Source-Modells, DeepSeek R1-0528, veröffentlicht hat. Diese Version hat die KI- und globale Geschäftswelt beeindruckt, da sie mit geringen Trainingskosten entwickelt wurde und gleichzeitig sehr gut in Aufgaben zur Schlussfolgerung abschnitt. Das Modell steht kostenlos für Entwickler und Unternehmen zur Verfügung. Diese Woche hat das 24-jährige deutsche Unternehmen TNG Technology Consulting GmbH eine Anpassung dieses Modells veröffentlicht: DeepSeek-TNG R1T2 Chimera. Es ist das neueste Modell in der Chimera-Serie großer Sprachmodelle (LLMs) von TNG und bietet erhebliche Verbesserungen in Effizienz und Geschwindigkeit. R1T2 erreicht bis zu 92% der Intelligenzbewertungen von R1-0528, während es nur etwa 40% der Ausgabe-Token benötigt, die R1-0528 produziert. Dies reduziert die Antwortlänge um 60%, was direkt zur Verringerung der Inferenzzeit und der Rechenkosten führt. Im Vergleich zur ursprünglichen Version R1 ist R1T2 auch durchschnittlich 20% präziser und effizienter. Die Leistungssteigerung wird durch TNGs Methode "Assembly-of-Experts" (AoE) ermöglicht, die im Mai auf arXiv veröffentlicht wurde. AoE ist eine Technik zum Zusammenführen von LLMs, bei der die Gewichtstensoren (interne Parameter) von mehreren vorab trainierten Modellen selektiv interpoliert werden. Im Gegensatz dazu aktiviert die "Mixture-of-Experts" (MoE)-Architektur verschiedene Komponenten oder "Experten" bedingt pro Eingabe. Bei MoE-Modellen wie DeepSeek-V3 oder Mixtral sind nur Teile des Netzwerks pro Token aktiv, was hohe Parameterzahlen und Spezialisierung ermöglicht, aber die Inferenzkosten verwalten lässt. R1T2 wird ohne weitere Feinabstimmung oder Neutrainierung erstellt. Es kombiniert die Schlussfolgerungskraft von R1-0528, die strukturierten Denkmuster von R1 und das prägnante, instruktionsorientierte Verhalten von V3-0324. Dies resultiert in einem Modell, das hochwertige Antworten liefert, aber signifikant schneller und kostengünstiger ist. TNG fokussiert sich dabei hauptsächlich auf die Merging von spezialisierten Expertentensoren innerhalb von MoE-Layern, während es häufig die effizienteren Shared- und Attention-Layer von schnelleren Modellen wie V3-0324 beibehält. Dies ermöglicht es den Chimera-Modellen, die Schlussfolgerungskraft zu erben, ohne die Verboseität oder Latenz der stärksten Elternmodelle zu replizieren. Die Benchmarks, die TNG vorgestellt hat, zeigen, dass R1T2 zwischen 90% und 92% der Schlussfolgerungsleistung von R1-0528 erreicht, gemessen an Testsets wie AIME-24, AIME-25 und GPQA-Diamond. Die Reduzierung des Output-Length um 60% führt zu einer Verringerung der Inferenzzeit und des Rechengesprächs, was zu einer Verkürzung der Antwortzeiten um 200% führt. Auch im Vergleich zu R1 ist R1T2 durchschnittlich 20% kürzer und effizienter, was bedeutende Vorteile für Anwendungen mit hoher Durchsatzrate oder kostensensiblen Bereitstellungen bietet. Das Modell wird unter der permissiven MIT-Lizenz veröffentlicht und steht jetzt auf Hugging Face zur Verfügung. TNG betont, dass R1T2 zwar für allgemeine Schlussfolgerungsaufgaben geeignet ist, aber derzeit nicht für Anwendungsfälle empfohlen wird, die Funktionsaufrufe oder Werkzeugnutzung erfordern. Dies könnte in zukünftigen Updates verbessert werden. Unternehmen sollten außerdem die Einhaltung der EU-KI-Verordnung ab August 2025 überprüfen, insbesondere wenn sie Nutzer in der EU bedienen. TNG Technology Consulting GmbH, gegründet im Januar 2001 und mit Sitz in Bayern, Deutschland, beschäftigt über 900 Mitarbeiter, darunter viele PhDs und technische Spezialisten. Das Unternehmen konzentriert sich auf Softwareentwicklung, Künstliche Intelligenz und DevOps/Cloud-Dienstleistungen und dient großen Unternehmenskunden in Branchen wie Telekommunikation, Versicherung, Automobilbau, E-Commerce und Logistik. Seine werteorientierte Partnerschaftsstruktur fördert eine Kultur der technischen Innovation, was durch die öffentliche Veröffentlichung von Modellen wie R1T2 und die Veröffentlichung seiner AoE-Methode demonstriert wird. Für technische Entscheidungsträger wie CTOs, AI-Plattform-Betreiber, Engineering-Leads und IT-Beschaffungsteams bietet R1T2 praktische Vorteile: Geringere Inferenzkosten: Weniger Tokens pro Task reduzieren die GPU-Zeit und Energieverbrauch, was zu Infrastruktureinsparungen führt, insbesondere in Umgebungen mit hohem Durchsatz oder in Echtzeit. Hohe Schlussfolgerungsqualität ohne Overhead: Es behält viel der Schlussfolgerungskraft von Top-Modellen wie R1-0528, aber ohne ihre Verboseität. Dies ist ideal für strukturierte Aufgaben wie Mathematik, Programmierung und Logik, wo prägnante Antworten bevorzugt werden. Offen und modifizierbar: Die MIT-Lizenz ermöglicht volle Bereitstellungskontrolle und Anpassung, einschließlich privater Hosting, Modellausrichtung oder weiteren Trainings in regulierten oder abgeschirmten Umgebungen. Modulares Design: Der AoE-Ansatz deutet auf eine Zukunft hin, in der Modelle modular zusammengesetzt werden können, indem man Stärken existierender Modelle neu kombiniert, anstatt von Grund auf neu zu trainieren. Die frühen Diskussionen in der Reddit-Community LocalLLaMA belegen praktische Eindrücke von R1T2. Benutzer loben die Responsivität, Token-Effizienz und Balance zwischen Geschwindigkeit und Kohärenz des Modells. Insbesondere wird hervorgehoben, dass R1T2 in mathematisch anspruchsvollen Kontexten besser abschneidet als frühere R1-Varianten und konsistenter Halluzinationen vermeidet. Solche emergenten Eigenschaften sind besonders wichtig für Entwickler, die stabilen LLM-Backends für Produktionsumgebungen suchen. R1T2 steht unter der MIT-Lizenz auf Hugging Face zur Verfügung und kann für Community-Experimente, einschließlich Nachschulung und Verstärkungslernen, genutzt werden. Intern verarbeitet TNG bereits fast 5 Milliarden Tokens täglich über die Chutes serverlose Inferenzplattform. Zusammenfassend zeigt DeepSeek-TNG R1T2 Chimera das Potenzial der AoE-Konstruktion, um leistungsfähige, effiziente LLMs zu generieren, ohne auf gradientenbasierte Trainingsmethoden zurückgreifen zu müssen. Durch die strategische Kombination der Schlussfolgerungskraft von R1, der Token-effizienten Struktur von V3-0324 und Verbesserungen von R1-0528, etabliert R1T2 einen neuen Standard für ausgewogenes Modelldesign. Seine Offenheit und Flexibilität machen es zu einer starken Option für Entwickler, die nach schnellen, hochwertigen und anpassbaren großen Sprachmodellen suchen. Die AoE-Methode könnte zudem als Vorlage für zukünftige Experimente im Parameterraum dienen, die modularen und interpretierbaren LLM-Entwicklung befördern.

Related Links