Une faille matérielle révélée dans les GPU menace la sécurité des modèles d'IA
Une équipe de chercheurs de l’Université de Toronto a mis au jour une vulnérabilité matérielle affectant les unités de traitement graphique (GPU), des composants essentiels au fonctionnement des modèles d’intelligence artificielle (IA) et des services d’apprentissage automatique dans le cloud. Cette découverte concerne une variante de l’attaque Rowhammer, déjà connue pour cibler la mémoire des processeurs centraux (CPU), mais qui s’avère également efficace contre les GPU équipés de mémoire GDDR6 — un type de mémoire haute vitesse couramment utilisé dans les cartes graphiques. Selon Gururaj Saileshwar, professeur adjoint au département d’informatique de la Faculté des arts et sciences, une attaque réussie peut provoquer une dégradation catastrophique des modèles d’IA, faisant chuter leur précision de 80 % à seulement 0,1 %. Cette défaillance pourrait avoir des conséquences graves dans des domaines critiques comme l’analyse d’images médicales, la détection de fraude bancaire ou la cybersécurité. Le mécanisme de l’attaque Rowhammer repose sur la manipulation de cellules mémoire par des accès rapides et répétés à des lignes adjacentes, provoquant des interférences électriques qui entraînent des changements de bits — des erreurs non intentionnelles dans des zones mémoire non ciblées. Ces erreurs peuvent permettre à un attaquant d’escamoter des protections logicielles ou de prendre le contrôle d’un système. Dans ce cas, les chercheurs, menés par Saileshwar, ont conçu une preuve de concept nommée GPUHammer, ciblant spécifiquement la mémoire GDDR6 d’un GPU NVIDIA RTX A6000, largement utilisé pour le calcul haute performance. Ils ont démontré qu’un simple changement d’un bit dans l’exposant d’un poids d’un modèle d’IA pouvait entraîner une chute massive de sa performance. Le défi majeur résidait dans les différences architecturales entre la mémoire CPU et GPU : les GPU disposent de taux de rafraîchissement plus rapides, de latences plus élevées et d’une architecture plus complexe. Pour contourner ces obstacles, l’équipe a exploité la parallélisation massive des GPU — leur capacité à exécuter des milliers d’opérations simultanément — afin d’optimiser leurs motifs d’attaque. « Frapper les GPU, c’est comme frapper à l’aveugle », reconnaît Saileshwar, rappelant que l’équipe a failli abandonner après plusieurs échecs. Contrairement aux CPU, où les interfaces mémoire peuvent être observées via des outils, les puces de mémoire GDDR6 sont soudées directement sur la carte graphique, rendant toute inspection directe impossible. La seule preuve d’un succès était l’apparition inattendue de bits inversés. Les chercheurs ont signalé leur découverte de manière responsable à NVIDIA en début d’année. En juillet, la société a publié un avis de sécurité, recommandant l’activation du code de correction d’erreurs (ECC), une mesure de protection connue pour détecter et corriger les erreurs de mémoire. Toutefois, les chercheurs ont mis en garde : cette solution ralentit les tâches d’apprentissage automatique jusqu’à 10 %, et pourrait être contournée par des attaques plus sophistiquées impliquant plusieurs bits altérés. Cette découverte souligne l’importance croissante de la sécurité matérielle dans les systèmes d’IA, un domaine encore peu exploré. « Les travaux dans ce domaine sont à peine commencés », insiste Saileshwar. Avec des charges de travail de plus en plus critiques sur les GPU — dans la santé, la finance, la sécurité — il est crucial de détecter et de corriger ces vulnérabilités avant qu’elles ne soient exploitées. Leurs résultats, publiés à la conférence USENIX Security Symposium 2025, ouvrent la voie à une nouvelle génération de recherches sur la sécurité des systèmes d’IA au niveau matériel.
