HyperAI

Un problème majeur entrave l'optimisation des systèmes d'entraînement des transformateurs, une architecture fondamentale de l'intelligence artificielle moderne. Bien que ces systèmes reposent principalement sur l'algèbre linéaire dense, une fraction non négligeable du temps d'exécution total est consommée par des opérations périphériques liées à la gestion de la mémoire. Des calculs tels que la normalisation, les fonctions d'activation, les mises à jour résiduelles et les réductions nécessitent le déplacement incessant de grands tenseurs intermédiaires à travers la mémoire globale des puces graphiques, tout en effectuant peu de calculs arithmétiques. Cette dépendance excessive au transfert de données, plutôt qu'à la puissance de calcul, constitue un goulot d'étranglement critique pour les piles d'entraînement autrement hautement optimisées. Pour répondre à ce défi, les chercheurs ont introduit CODA, une nouvelle abstraction de noyau graphique (GPU) qui permet de réexprimer ces opérations complexes sous la forme de programmes GEMM accompagnés d'un épilogue. L'approche repose sur une observation clé : de nombreux opérateurs des transformateurs, actuellement exposés comme des noyaux distincts au sein des cadres de développement, peuvent être reparamétrés algébriquement. Cette transformation permet d'exécuter les calculs pendant qu'une tuile de sortie du produit matriciel GEMM reste dans la mémoire locale de la puce, avant même son écriture définitive en mémoire globale. Le système CODA standardise la boucle principale du GEMM et expose un ensemble restreint de primitives d'épilogue composable. Ces primitives gèrent des tâches spécifiques telles que le mise à l'échelle, les réductions, les transformations par paires et l'accumulation. Cette interface contrainte préserve la structure de performance des GEMMs rédigés manuellement par des experts, garantissant une efficacité matérielle maximale. Au même titre, elle reste suffisamment expressive pour couvrir presque l'intégralité des calculs non liés à l'attention, tant dans le passage avant que dans le passage arrière d'un bloc de transformateur standard. Les essais effectués sur des charges de travail représentatives de transformateurs démontrent la viabilité de cette méthode. Les noyaux CODA, qu'ils soient rédigés par des humains ou générés par des modèles de langage (LLM), atteignent des performances élevées. Ces résultats suggèrent que la programmation de type GEMM avec épilogue offre une voie pratique pour concilier deux objectifs longtemps perçus comme contradictoires : la productivité au niveau du cadre de développement et l'efficacité au niveau du matériel. Cette approche pourrait donc révolutionner l'optimisation des modèles d'IA en réduisant les temps d'attente dus aux transferts de mémoire sans sacrifier la simplicité d'utilisation pour les développeurs. Les auteurs publient ces travaux sous la forme d'un article de recherche sur le serveur arXiv, classé dans la catégorie de l'apprentissage automatique. Le document, identifié par le code arXiv:2605.19269, propose une alternative prometteuse face aux limites actuelles des architectures de calcul intensif. En éliminant la redondance des mouvements de mémoire et en optimisant le flux de données à travers la hiérarchie mémoire, CODA ouvre la porte à des systèmes d'entraînement plus rapides et plus économes en énergie, essentiels pour l'évolution future des grands modèles de langage.

Liens associés

Liens associés

Liens associés

Command Palette

CODA optimise les blocs Transformer en programmes GEMM

Liens associés

Command Palette

CODA optimise les blocs Transformer en programmes GEMM

Liens associés

Command Palette

CODA optimise les blocs Transformer en programmes GEMM

Liens associés