Co-design hardware-logiciel pour l'IA sur le edge
Une nouvelle approche de co-conception matériel-logiciel, développée par des chercheurs de l'Université du Michigan, permet d'exécuter des intelligences artificielles avancées sur des appareils de bord en optimisant radicalement la consommation d'énergie et la latence. Les résultats de cette étude, publiés dans Nature Communications, ouvrent la voie au traitement en temps réel de flux de données continus, tels que les vidéos ou les capteurs, directement sur des appareils locaux comme les smartphones, les aides auditives ou les caméras de véhicules autonomes. Le défi majeur de l'intelligence artificielle sur le bord réside dans l'inefficacité des architectures actuelles. D'un côté, le matériel traditionnel crée un goulot d'étranglement énergétique constant car les données doivent circuler entre une unité de mémoire et une unité de traitement distinctes. De l'autre, les modèles logiciels dominants, comme les transformateurs (à la base de ChatGPT), consomment une quantité de mémoire disproportionnée à mesure que la séquence d'entrée s'allonge, tandis que les réseaux de neurones spiking, bien qu'efficaces, peinent à maintenir une précision suffisante. Pour résoudre ces problèmes, l'équipe a conçu un système où le matériel et le logiciel se complètent parfaitement. L'innovation repose sur l'adaptation de modèles d'état d'espace (SSM), une alternative prometteuse aux transformateurs, sur une architecture de calcul dans la mémoire. Contrairement aux systèmes rigides non optimisés pour les réseaux de neurones classiques, le calcul dans la mémoire permet de stocker et de traiter les données au même endroit, éliminant ainsi les transferts coûteux. Les chercheurs ont démontré que les modèles d'état d'espace sont idéaux pour cette approche car toutes leurs opérations peuvent être implémentées efficacement via la physique des dispositifs. Pour maximiser l'efficacité, l'équipe a apporté deux modifications clés au modèle logiciel. Premièrement, elle a adapté les modèles d'état d'espace pour n'utiliser que des nombres réels, remplaçant les nombres complexes qui imposaient un surcoût de calcul aux circuits. Deuxièmement, elle a établi un taux de décroissance fixe pour des blocs entiers du modèle, évitant ainsi les goulots d'étranglement de mémoire liés à des taux individuels. Sur le plan matériel, cette logique a été implémentée sur des tableaux croisés de mémoire résistive (RRAM) fabriqués avec un processus CMOS standard de 65 nanomètres. Des memristors en oxyde de tungstène (WOx) de différentes épaisseurs ont été créés en contrôlant le temps d'oxydation d'une électrode de tungstène. Les couches plus fines permettent une mémoire à court terme qui s'estompe rapidement, tandis que les couches plus épaisses conservent l'information plus longtemps, permettant une gestion précise de la mémoire courte du système. Les tests expérimentaux et les simulations ont confirmé que cette architecture maintient une haute précision tout en réduisant considérablement la consommation d'énergie. Les tableaux croisés RRAM ont réalisé des multiplications vecteur-matrice avec une précision de seulement 4,6 bits par rapport à la sortie mathématique idéale. Les memristors ont également suivi avec précision le comportement prévu du modèle lors des tests de décroissance. Selon les auteurs, cette réalisation prouve que les modèles d'état d'espace et le matériel neuromorphique constituent un mariage naturel, déplaçant le champ de l'IA vers une efficacité matérielle native capable de fonctionner n'importe où.
