NextSilicon präsentiert Maverick-2-Datenfluss-Engine und Arbel-RISC-V-CPU für HPC
NextSilicon hat mit dem Markteinstieg seines „Maverick-2“-Dataflow-Engines einen bedeutenden Schritt in Richtung einer neuartigen HPC-Architektur unternommen. Nach acht Jahren Entwicklungszeit und 303 Millionen US-Dollar an Venture-Capital präsentiert das Unternehmen nun eine 64-Bit-Dataflow-Plattform, die auf einer revolutionären Architektur basiert – der Intelligent Computing Architecture (ICA). Zentrales Element ist der Maverick-2-Die, ein 5-Nanometer-Chip mit 54 Milliarden Transistoren, der über 224 rekonfigurierbare Compute-Blöcke verfügt, jeweils mit hunderten von ALUs und FPUs. Diese Struktur ermöglicht eine nahezu vollständige Auslastung der Rechenressourcen, da die Architektur auf Datenfluss statt auf Befehlssequenzierung setzt – im Gegensatz zur klassischen Von-Neumann-Architektur, bei der bis zu 98 % des Chips für Steuerung, Cache und Datenmanagement verwendet werden. Stattdessen werden Programme als „Mill-Cores“ (Graphen von Operationen) direkt auf die ALUs abgebildet, wobei der Compiler automatisch die Optimierung übernimmt, ohne menschliches Eingreifen. Dieser Prozess ist dynamisch: Mill-Cores werden in Echtzeit geladen, angepasst und gelöscht, je nach Workload. Die Plattform ist nicht als reiner Accelerator konzipiert, sondern als „Superchip“-System, das mit einem eigenen RISC-V-Prozessor namens Arbel kombiniert wird. Arbel ist ein eigenentwickeltes, 10-Wege-Decoder-Design mit sechs Integer-ALUs, vier 128-Bit-FPUs und 64 KB L1-Cache pro Seite, unterstützt 16 parallele Skalarbefehle und soll mit Intel’s LionCove und AMD’s Zen5 konkurrieren. Die RISC-V-CPUs dienen als Host-Controller und verarbeiten Serial-Code, während der Maverick-2-Engine die parallelen, rechenintensiven Teile übernimmt. Die gesamte Systemarchitektur ist so gestaltet, dass sie HPC-Anwendungen – insbesondere wissenschaftliche Simulationen mit 64-Bit-Fließkomma – effizienter und energieeffizienter ausführt als herkömmliche CPUs oder GPUs. Die Leistungsergebnisse sind beeindruckend: Bei Benchmark-Tests wie GUPS, STREAM und HPCG erreicht Maverick-2 eine bis zu 22-mal höhere Geschwindigkeit als ein CPU, nahezu 6-mal mehr als ein GPU und bei HPCG „gegenläufige Leistung“ zu führenden GPUs bei halbem Energieverbrauch. Der PageRank-Benchmark zeigt eine 10-fache Verbesserung gegenüber „führenden GPUs“. Obwohl die Spitzenleistung (z. B. 100 TFLOPS FP64) unter der von NVIDIA H100 oder H200 liegt, überzeugt die Architektur durch hohe Dauerleistung und Effizienz. Die TDP liegt bei 400 W (Single-Die) und 750 W (Dual-Die in OAM-Steckplatz), was im Verhältnis zu der erreichten Leistung als überaus günstig gilt. Industrieexperten sehen in Maverick-2 eine ernsthafte Herausforderung für GPU-basierte HPC-Architekturen. Die automatisierte Code-Überführung ohne CUDA- oder ROCm-Portierung ist ein entscheidender Vorteil für Forschungseinrichtungen, die auf bestehende Fortran- oder C-Code-Basen angewiesen sind. Die Kombination aus FPGAs und CPUs in einer einzigen, selbstoptimierenden Plattform könnte den Weg für eine neue Generation von „programmierbaren Supercomputern“ ebnen. Die Skalierbarkeit über mehrere Sockets bleibt jedoch eine offene Frage. NextSilicon ist mit Sandia National Laboratory bereits in Kooperation, was die Relevanz für nationale Forschungszentren unterstreicht. Die Einführung von Arbel als eigenständiger RISC-V-CPU zeigt zudem eine strategische Unabhängigkeit von externen IP-Lizenzgebern – ein entscheidender Vorteil in der aktuellen geopolitischen und technologischen Landschaft.
