HyperAIHyperAI
Back to Headlines

Chine : « Shunxi 1.0 », premier grand modèle cérébral à impulsions basé sur une complexité intrinsèque, dévoilé sur puissance GPU nationale

il y a 10 jours

Récemment, une équipe dirigée par Li Guoqi et Xu Bo du Institut de l’automatisation de l’Académie des sciences chinoises a présenté SpikingBrain-1.0, un modèle d’intelligence artificielle à grande échelle inspiré du cerveau humain, développé en collaboration avec MetaX, une entreprise spécialisée dans les puces GPU. Ce modèle, basé sur une théorie originale de complexité endogène, a été entraîné et mis en œuvre intégralement sur une plateforme chinoise de calcul à grande échelle utilisant des GPU de milliers de cœurs, marquant une avancée majeure dans le développement d’un écosystème de modèles d’intelligence artificielle non basé sur l’architecture Transformer, entièrement indépendant et maîtrisé en Chine. À l’heure actuelle, les grands modèles d’intelligence artificielle reposent principalement sur l’architecture Transformer, qui repose sur des neurones artificiels simples, ou « neurones ponctuels ». Cette approche, qualifiée de « complexité exogène », repose sur l’augmentation de la taille du modèle, des ressources de calcul et des données pour améliorer les performances, mais elle souffre de limitations critiques : le coût d’entraînement croît de manière quadratique avec la longueur de la séquence, tandis que la mémoire utilisée lors de l’inférence augmente linéairement. Ces contraintes limitent fortement la capacité à traiter des séquences très longues. En s’inspirant des mécanismes complexes internes des neurones biologiques, l’équipe a proposé une nouvelle voie : la « complexité endogène ». Cette approche repose sur des neurones à impulsions (spiking neurons) capables de simuler des dynamiques internes riches, proches de celles du cerveau humain. En établissant un lien théorique entre ces dynamiques et les mécanismes d’attention linéaire, l’équipe a démontré que ces derniers ne sont qu’une forme simplifiée du calcul dendritique. Cette découverte ouvre la voie à des modèles capables d’augmenter progressivement leur complexité et leur performance sans sacrifier l’efficacité. SpikingBrain-1.0 est ainsi constitué de deux variantes : une version de 7 milliards de paramètres (SpikingBrain-1.0-7B) à complexité linéaire, et une version plus puissante de 76 milliards de paramètres (SpikingBrain-1.0-76B) avec une complexité mixte (12 milliards de paramètres activés). L’équipe a conçu un cadre d’entraînement et d’inférence hautement efficace, adapté aux GPU chinois de la série MetaX Xiyun C550, incluant une bibliothèque d’opérations Triton, des stratégies de parallélisme de modèle et des primitives de communication pour clusters. Les performances de SpikingBrain-1.0 sont remarquables. Premièrement, il nécessite très peu de données pour s’entraîner : avec seulement environ 2 % des données utilisées par les modèles Transformer, il atteint des performances comparables sur des tâches complexes comme la compréhension du langage (MMLU, CMMLU, Ceval), le raisonnement courant (ARC, HS). Deuxièmement, l’inférence est accélérée de manière exponentielle grâce à la nature événementielle des neurones à impulsions : sur une séquence de 1 million de tokens, le temps pour générer le premier token (TTFT) est 26,5 fois plus rapide que sur un modèle Transformer ; à 4 millions de tokens, l’accélération dépasse 100 fois. Sur un processeur mobile, il dépasse de 4 à 15 fois la vitesse de décodage de Llama3.2 à des longueurs de séquence de 64k à 256k. Troisièmement, SpikingBrain-1.0 démontre la faisabilité d’un écosystème de modèles d’intelligence artificielle non-Transformer, entièrement indépendant, construit sur des infrastructures GPU chinoises. Enfin, grâce à une stratégie de pulsation à seuil dynamique à deux étapes combinée à un modèle à experts mixtes (MoE), le modèle atteint une densité de sparsité supérieure à 69,15 %, avec seulement 1,85 % d’impulsions sur les longues séquences, réduisant considérablement la consommation énergétique. SpikingBrain-1.0 représente la première architecture de modèle fondamental à impulsions linéaire à grande échelle développée en Chine, et la première à être entraînée et déployée sur une infrastructure GPU nationale. Il présente un potentiel significatif pour des applications exigeant le traitement de séquences extrêmement longues : analyse de documents juridiques ou médicaux, simulation multi-agents complexes, expériences de physique des particules, analyse de séquences ADN ou trajectoires en dynamique moléculaire. Cette avancée ouvre une nouvelle voie technologique pour l’intelligence artificielle, inspirant de futures recherches en calcul neuro-morphique et en conception de puces à faible consommation. Les rapports techniques (en chinois et anglais), le code source et une interface d’essai en ligne sont désormais accessibles au public.

Related Links