HyperAIHyperAI
Back to Headlines

RTX 4090 vs 5090 vs PRO 6000: LLM-Inferenz-Performance im Vergleich

vor 23 Tagen

Bei der Bewertung der Leistung von LLM-Inferenz auf modernen NVIDIA-GPUs wurden die RTX 4090, RTX 5090 und RTX PRO 6000 in mehreren Serverkonfigurationen getestet: jeweils 1x, 2x und 4x pro Modell. Ziel war es, die kosteneffizienteste und leistungsfähigste Option für die Bereitstellung großer Sprachmodelle wie Qwen3-Coder-30B-A3B-Instruct und LLaMA in produktiven Umgebungen zu identifizieren. Die Tests wurden mit dem vLLM-Inferenz-Engine durchgeführt, die für hohe Durchsatzraten und Skalierbarkeit bekannt ist. Die Benchmark-Suite automatisiert vier Schritte: Systemtest mit YABS (CPU, RAM, Speicher, Netzwerk), Herunterladen von Modellen von Hugging Face, Start eines vLLM-Docker-Containers mit OpenAI-kompatibler API und schließlich ein Inference-Benchmark mit synthetischen Anfragen unter hoher Konkurrenz. Dabei wurde die Tensor-Parallelität auf die Anzahl der verfügbaren GPUs gesetzt. Ein entscheidender Faktor war die Treiber-Version: Bei älteren Treibern (570.86.15) zeigte die RTX 5090 Leistungswerte nahe der RTX 4090, doch nach dem Update auf 575.57.08 stieg die Effizienz deutlich an – ein klares Signal für die Bedeutung aktueller Softwareoptimierungen. Die Ergebnisse zeigten, dass die RTX PRO 6000, trotz höherer Anschaffungskosten, bei größeren Modellen wie Qwen3-Coder-30B-A3B-Instruct deutlich schneller ist als vier RTX 4090 oder vier RTX 5090. Dies liegt vor allem an der höheren VRAM-Kapazität (48 GB), der besseren Speicherbandbreite und der effizienteren Architektur, die auch bei Datenübertragungen über PCIe Vorteile bringt. Selbst bei kleineren Modellen wie LLaMA-8B oder Qwen-3B übertrifft die PRO 6000 die 4090-Cluster in vielen Fällen, besonders bei Batch-Inferenz. Die Modell-Download-Geschwindigkeit erwies sich als potenzieller Engpass, besonders bei langen Distanzen zu Hugging Face-Servern. Die Nutzung von HF_HUB_ENABLE_HF_TRANSFER=1 verbesserte die Downloads signifikant. Auch die Token-Generierungsgeschwindigkeit (insbesondere TTFT – Time to First Token) variierte erheblich zwischen Servern mit gleicher GPU, was auf Unterschiede in der Speicherbandbreite, der Treiber-Optimierung und der Backend-Konfiguration zurückzuführen ist. Für Selbsthoster und Entwickler, die auf Budget achten, bleibt die RTX 4090 weiterhin attraktiv für kleinere Modelle. Doch bei mittleren bis großen Modellen, insbesondere in hochdurchsatzorientierten Anwendungen, ist die RTX PRO 6000 die überlegene Wahl – nicht nur wegen der Leistung, sondern auch wegen der Reduzierung von PCIe-Bandbreitenengpässen durch Techniken wie Prefill-Decode-Disaggregation. Die Ergebnisse unterstreichen, dass FLOPS allein kein ausreichender Maßstab sind; VRAM, Speicherarchitektur und Softwarestack entscheiden über die echte Effizienz. Die vollständige Benchmark-Infrastruktur ist öffentlich verfügbar (GitHub-Repository), mit leicht anpassbaren Parametern. Nutzer können die Tests selbst durchführen, Modelle oder Konfigurationen anpassen und sich im Discord oder den Kommentaren mit Vorschlägen beteiligen. Die Ergebnisse bieten wertvolle Orientierung für Investitionen in inferenzoptimierte Hardware – besonders in Zeiten steigender Nachfrage nach lokaler LLM-Verarbeitung.

Related Links