HyperAIHyperAI

Command Palette

Search for a command to run...

NextSilicon dévoile Maverick-2 : une architecture dataflow révolutionnaire pour le HPC, avec un RISC-V maison et des performances prometteuses

Après huit ans de développement et 303 millions de dollars de financement de semences et de trois tours de financement, NextSilicon dévoile aujourd’hui plusieurs variantes de son moteur de calcul à flux de données, le Maverick-2, annoncé l’an dernier lors de sa sortie de mode stealth. L’entreprise présente également un processeur RISC-V maison, Arbel, qui devrait être associé au Maverick-2 pour former des combinaisons « superchip » – une architecture novatrice visant les centres de calcul haute performance (HPC), où la précision en virgule flottante 64 bits reste cruciale. Le premier déploiement en production devrait avoir lieu au Laboratoire national de Sandia, qui a contribué au développement du prototype Maverick-1 lancé en 2022. NextSilicon se distingue par son approche HPC-first, rare dans l’industrie des processeurs. Son architecture multi-niveaux repose sur un moteur reconfigurable à flux de données au cœur du système, où s’effectue la majeure partie du calcul pour les simulations ou modèles HPC. L’innovation majeure du Maverick-2 réside dans la manière dont le logiciel est porté, exécuté et optimisé automatiquement, sans intervention humaine. Le code est transposé du CPU vers les cœurs RISC-V embarqués sur le socket Maverick et vers les blocs d’unités arithmétiques qui constituent la majorité des transistors du chip. Contrairement à l’architecture de Von Neumann classique, où 98 % de la surface d’un CPU est consacrée à la gestion des instructions et des données (mémoire cache, prédiction de branches, exécution hors ordre), l’architecture de calcul intelligente (ICA) de NextSilicon mappe directement les instructions à des unités arithmétiques (ALU), chaque ALU agissant comme une instruction. Le Maverick-2, gravé en 5 nm par TSMC, compte 54 milliards de transistors, répartis en quatre régions de calcul, avec 224 blocs de calcul disposés en grille. Chaque bloc contient des centaines d’ALU, donnant lieu à des dizaines de milliers d’unités de calcul par chip – bien plus que les cœurs CUDA des GPU Nvidia, malgré une taille plus réduite. Le vrai avantage réside dans la gestion des threads : chaque bloc peut supporter des centaines de threads simultanés à 1,5 GHz, contre deux pour un CPU et 32 à 64 pour un GPU. L’architecture évite la prédiction et la spéculation, réduisant ainsi la latence et l’overhead. Les données sont transférées uniquement quand nécessaire, via une station de réservation, et les algorithmes du compilateur ajustent dynamiquement les flux de données pour maximiser l’utilisation des ALU et des unités flottantes – des taux d’utilisation pouvant atteindre 75 à 80 % sur des applications HPC après optimisation. Le compilateur de NextSilicon prend du code C, C++ ou Fortran, analyse son représentation intermédiaire et le mappe automatiquement sur les ALU, créant des « mill cores » qui peuvent être ajoutés ou supprimés en nanosecondes. Ce système fonctionne comme un FPGA programmé automatiquement, sans nécessiter de portage manuel vers CUDA ou ROCm. Seules les parties du code les plus gourmandes en calcul sont transférées au Maverick-2 ; le reste tourne sur les 32 cœurs RISC-V E-cores embarqués ou sur le CPU hôte X86. Les performances réelles sont prometteuses : sur le benchmark GUPS, le Maverick-2 atteint 32,6 GUPS à 460 watts, soit 22 fois plus vite qu’un CPU et près de 6 fois plus qu’un GPU (sans précision sur le modèle comparé). En STREAM, il atteint 5,2 To/s (83,9 % du débit théorique), 1,86 fois plus efficace par watt qu’un GPU. Sur HPCG, il atteint 600 gigaflops à 600 watts (probablement avec deux chips), rivalisant avec les meilleurs GPU tout en consommant la moitié de l’énergie. Enfin, sur PageRank, il bat les GPU leaders de 10 fois. Le Maverick-2 est disponible en version mono-die (400 W) et en double-die pour les sockets OAM (750 W). Bien que ses performances théoriques en FP64 soient inférieures à celles des H100 Nvidia, l’efficacité réelle et la consommation énergétique sont des atouts majeurs. Pour compléter son écosystème, NextSilicon lance Arbel, un processeur RISC-V maison, présenté comme un « test chip » mais destiné à devenir un CPU intégré, évitant les licences Arm. Arbel dispose d’un cœur 10-wide, 6 ALU entiers, 4 FPUs vectorielles 128 bits, 64 Ko de cache L1 et 1 Mo de cache L2 par cœur. NextSilicon affirme qu’il peut rivaliser avec les cœurs Xeon LionCove et Epyc Zen5. En somme, NextSilicon propose une architecture révolutionnaire, combinant flexibilité FPGA, efficacité GPU et compatibilité CPU, tout en réduisant drastiquement les coûts énergétiques et les complexités logicielles. Son succès dépendra de sa capacité à échelonner à grande échelle et à convaincre les centres HPC de faire le saut vers une nouvelle génération de calcul.

Liens associés