Kioxia entwickelt 5TB-Flash-Modul mit 64 GB/s für AI-GPUs
Kioxia hat einen Prototyp eines 5-TB-Flash-Speichermoduls mit einer Bandbreite von 64 GB/s vorgestellt, das NAND-basierte Speicherung für GPUs revolutionieren könnte. Der sogenannte High Bandwidth Flash (HBF) kombiniert hohe Kapazität mit extrem hoher Datenübertragungsrate und stellt eine Alternative zu HBM (High Bandwidth Memory) dar. Im Gegensatz zu HBM, das auf DRAM basiert und typischerweise nur wenige GB Speicher bietet, erreicht HBF mit 5 TB pro Modul eine Kapazität von 8 bis 16 Mal mehr. Die 64 GB/s Bandbreite basieren auf PCIe 6.0 und nutzen PAM4-Signaling, das die Datenrate pro Symbol verdoppelt – allerdings mit erhöhter Empfindlichkeit gegenüber Rauschen. Um Signalintegrität zu gewährleisten, setzt Kioxia auf präzise Equalisierung, erweiterte Fehlerkorrektur (ECC) und verstärkte Pre-emphasis, die auch PCIe 6.0 erfordert. Der Prototyp ist Teil einer strategischen Bewegung, bei der Flash-Speicher nicht länger nur als langsamere, tiefere Speicherschicht gilt, sondern in die Nähe des Rechenkerns rückt. Mit einer Leistungsaufnahme von unter 40 Watt pro Modul ist die Effizienz pro GB/s deutlich höher als bei herkömmlichen PCIe 5.0-SSDs, die bei etwa 14 GB/s bis zu 15 Watt verbrauchen. In Rechenzentren, in denen AI-Cluster bereits hohe Stromkosten verursachen, ist diese Energieeffizienz entscheidend. Die Architektur ermöglicht zudem eine lineare Skalierung: Durch daisy-chained Controller können mehrere Module hinzugefügt werden, ohne dass die Bandbreite pro Modul sinkt. Ein System mit 16 Modulen könnte so 80 TB Speicher und über 1 TB/s Durchsatz erreichen – ein Niveau, das bislang nur durch parallele Dateisysteme oder DRAM-Scratchpads erreichbar war. Ein zentrales Problem bleibt die Latenz: NAND-Flash arbeitet in Mikrosekunden, während HBM in Hundertstel von Nanosekunden reagiert. Kioxia kompensiert dies durch intelligente Vorlesestrategien (prefetching) und Controller-Caching, was die Leistung bei sequenziellen Workloads wie AI-Trainingsdaten, Checkpoints oder Graph-Analysen erheblich verbessert. Hier zählt Bandbreite mehr als Latenz. Dies ist kein isolierter Versuch – Kioxia hat bereits mit Nvidia an GPU-orientierten Flash-Lösungen wie XL-Flash gearbeitet und plant erhebliche Fabrikexpansionen in Japan, getrieben von der Erwartung, dass die Nachfrage nach Flash-Speicher bis 2028 nahezu verdreifacht wird. Der Prototyp signalisiert somit einen klaren Weg: Flash wird nicht nur größer, sondern auch schneller und rückt in die Nähe der Rechenarchitektur. Obwohl noch offene Fragen zu zufälligen Workloads, ECC-Einfluss auf Latenz und realen AI-Leistungsdaten bestehen, markiert dieser Schritt einen Paradigmenwechsel. Flash könnte künftig nicht nur Speicher, sondern auch ein Wettbewerbsfaktor bei der Bandbreiten-Ausstattung von Systemen werden – direkt neben GPUs selbst. Industrielle Analysten sehen in HBF eine potenzielle Schlüsseltechnologie für die nächste Generation von AI-Infrastrukturen. Die Fähigkeit, große, persistente Datenmengen mit HBM-artiger Geschwindigkeit bereitzustellen, könnte die Architektur von Rechenzentren grundlegend verändern. Kioxia positioniert sich damit nicht nur als Speicherhersteller, sondern als treibende Kraft bei der Neugestaltung der Speicherschicht im Datenverarbeitungsprozess.