RDMA beschleunigt AI-Speicherleistung für S3-kompatible Systeme
Künstliche Intelligenz (KI) erzeugt heute eine explosive Datenmenge – bis 2028 sollen Unternehmen jährlich fast 400 Zettabyte generieren, wobei 90 % dieser Daten unstrukturiert sind: Bilder, Videos, Audiodateien, PDFs und mehr. Diese Datenintensität erfordert Speicherlösungen, die skalierbar, kosteneffizient und gleichzeitig leistungsstark sind – besonders für KI-Trainingsworkloads, die oft auf GPU-Cluster mit hoher Parallelität angewiesen sind. Traditionelle Speicherarchitekturen basierend auf TCP zeigen hier Grenzen: hohe Latenz, begrenzte Durchsatzleistung und ineffiziente Nutzung von Ressourcen. Um diese Herausforderungen zu meistern, hat NVIDIA gemeinsam mit Speicherpartnern eine neue Lösung entwickelt: RDMA für S3-kompatible Speicher. Diese Technologie nutzt Remote Direct Memory Access (RDMA), um Daten direkt zwischen Speicher und Rechenknoten zu übertragen, ohne dass der CPU- oder Betriebssystemkern involviert ist. Dadurch werden Latenzen drastisch reduziert, die Durchsatzleistung pro Terabyte erhöht und der Energieverbrauch pro Einheit Daten gesenkt. Die Integration von RDMA in den S3-API-basierten Speicherprotokollstack ermöglicht es KI-Workloads, Daten aus objektorientierten Speichern (wie Cloudian HyperStore, Dell ObjectScale oder HPE Alletra Storage MP X10000) mit bis zu zehnfach höherer Geschwindigkeit zu lesen und zu schreiben – besonders relevant bei parallelen Zugriffen von Tausenden von GPUs. NVIDIA hat spezielle Client- und Server-Bibliotheken für RDMA im S3-Stack entwickelt, die bereits von führenden Speicherherstellern integriert wurden. Diese Bibliotheken laufen auf GPU-Compute-Knoten und ermöglichen eine nahtlose, performante Datenversorgung für KI-Trainingspipelines. Die Architektur ist offen: Andere Hersteller und Entwickler können eigene Implementierungen erstellen oder die Bibliotheken in ihre Software einbinden, was die Portabilität zwischen On-Premise- und Cloud-Umgebungen fördert – ein entscheidender Vorteil für Unternehmen mit mehreren „KI-Fabriken“. Die Standardisierung dieser Technologie wird aktiv vorangetrieben. Cloudian, Dell Technologies und HPE haben bereits RDMA für S3-kompatible Speicher in ihre Produkte integriert. Jon Toor (Cloudian) betont, dass dies die Skalierbarkeit und Effizienz von KI-Lösungen revolutioniert. Rajesh Rajaraman (Dell) sieht darin die Grundlage für künftige, hochskalierbare KI-Infrastrukturen mit extrem niedriger Latenz. Jim O’Dorisio (HPE) unterstreicht, dass die Lösung die Gesamtkosten senkt und die Leistung für unstrukturierte, KI-getriebene Workloads erheblich steigert. Die RDMA-Bibliotheken sind zunächst für ausgewählte Partner verfügbar und sollen ab Januar über das NVIDIA CUDA Toolkit allgemein zugänglich sein. Zudem wird ein neues NVIDIA Object Storage Certification im Rahmen des NVIDIA-Certified Storage-Programms eingeführt, um die Kompatibilität und Leistung von Speicherlösungen zu validieren. Bewertung durch Branchenexperten: Die Einführung von RDMA für S3-kompatible Speicher markiert einen Meilenstein in der KI-Infrastruktur. Branchenexperten sehen darin eine Antwort auf die steigende Anforderung nach performantem, skalierbarem und portablem Speicher für KI-Workloads. Die offene Architektur und die Zusammenarbeit mit führenden Speicherherstellern erhöhen die Chancen auf breite Akzeptanz. Insbesondere die Kombination aus hoher Leistung, geringer Latenz und Energieeffizienz macht die Technologie attraktiv für Rechenzentren, die KI-Entwicklungskosten senken und die GPU-Auslastung maximieren wollen. Die zukünftige Standardisierung und Zertifizierung stärken zudem das Vertrauen in die Lösung – ein entscheidender Faktor für Enterprise-Adoption.
