HyperAIHyperAI

Command Palette

Search for a command to run...

vor 20 Tagen
DeepSeek
LLM
vLLM

Build mit DeepSeek V4 auf NVIDIA Blackwell

DeepSeek hat eine neue Generation von Flaggschiff-Modellen mit DeepSeek-V4-Pro und DeepSeek-V4-Flash eingeführt, die speziell für eine hocheffiziente Verarbeitung von Millionen von Tokens konzipiert wurden. Das größere DeepSeek-V4-Pro verfügt über 1,6 Billionen Gesamtparameter und 49 Milliarden aktive Parameter, während das kleinere Modell DeepSeek-V4-Flash mit 284 Milliarden Gesamtparametern und 13 Milliarden aktiven Parametern für schnellere und effizientere Arbeitslasten optimiert ist. Beide Modelle unterstützen einen Kontextfenster von bis zu einer Million Tokens, was neue Möglichkeiten in Bereichen wie Langtext-Coding, Dokumentenanalyse, Datenermittlung und agentengesteuerten Workflows eröffnet. Die Architektur von V4 basiert auf der DeepSeek-MoE-Struktur und fokussiert sich auf die Optimierung der Attention-Komponente des Transformers. Diese Innovationen führten zu einer Reduktion der Inferenz-FLOPs pro Token um 73 Prozent sowie einer Verringerung des KV-Cache-Speicherbedarfs um 90 Prozent im Vergleich zu V3. Ein Schlüsselkonzept ist die hybride Aufmerksamkeit, die verschiedene Attention-Methoden kombiniert, um die Leistung bei langen Kontexten zu steigern. Da agentenbasierte Anwendungen komplexe Workflows mit vielen Schritten und umfangreichen Daten erfordern, ist diese Effizienzsteigerung entscheidend, um Engpässe bei Speicher und Rechenleistung zu vermeiden. Die Zusammenarbeit mit NVIDIA Blackwell ermöglicht die Leistungsfähigkeit für diese neuen Anforderungen. Tests auf NVIDIA GB200 NVL72-Systemen zeigen beim DeepSeek-V4-Pro eine Leistung von über 150 Tokens pro Sekunde und Nutzer. Die NVIDIA Blackwell-Plattform bietet die notwendige Skalierbarkeit und Latenz, um Trilliarden von Parametern und lange Kontexte zu bewältigen. Entwickler können die Modelle über GPU-beschleunigte Endpunkte auf build.nvidia.com testen oder die Modelle lokal mit NVIDIA NIM, SGLang oder vLLM bereitstellen. Diese Lösungen unterstützen verschiedene Konfigurationen für niedrige Latenz, hohen Durchsatz sowie spezielle Szenarien wie die Trennung von Prefill- und Decode-Phasen. DeepSeek V4 eignet sich besonders für Agenten-Workflows, da es eine hervorragende Koordination langer Kontexte, komplexe Schlussfolgerungen und Tool-Calling ermöglicht. Die Open-Source-Lizenzierung (MIT) für beide Modelle fördert die breite Nutzung und Anpassung. NVIDIA unterstützt die Community aktiv durch die Bereitstellung von Software-Optimierungen und offenen Projekten. Unternehmen können nun von der Wahl des Modells zum Fokus auf Infrastrukturstrategien übergehen, um hohe Leistungen bei minimalen Token-Kosten zu erreichen. Entwickler erhalten Zugriff auf detaillierte technische Informationen und Einstiegsmöglichkeiten über Hugging Face sowie die NVIDIA-Entwicklerplattform.

Verwandte Links