HyperAIHyperAI

Command Palette

Search for a command to run...

Console
il y a 17 heures

CUDA-L2 : Dépasser les performances de cuBLAS pour la multiplication matricielle grâce à l'apprentissage par renforcement

CUDA-L2 : Dépasser les performances de cuBLAS pour la multiplication matricielle grâce à l'apprentissage par renforcement

Résumé

Dans cet article, nous proposons CUDA-L2, un système qui combine les modèles de langage à grande échelle (LLM) et l’apprentissage par renforcement (RL) afin d’optimiser automatiquement les noyaux CUDA pour la multiplication matricielle à précision demi-précision (HGEMM). En utilisant la vitesse d’exécution CUDA comme récompense dans le cadre de l’apprentissage par renforcement, CUDA-L2 optimise automatiquement les noyaux HGEMM sur un espace de 1 000 configurations. CUDA-L2 surpasse systématiquement les principales références existantes en multiplication matricielle, allant du célèbre bibliothèque disponible à l’adresse http://… jusqu’aux bibliothèques fermées de pointe d’Nvidia, à savoir cuBLAS et cuBLASLt. En mode hors ligne, où les noyaux sont exécutés de manière consécutive sans intervalles temporels, CUDA-L2 atteint une amélioration moyenne de +22,0 % par rapport à cette référence ; +19,2 % par rapport à cuBLAS avec la configuration optimale de disposition (normal-normal NN et transposé-normal TN) ; +16,8 % par rapport à cuBLASLt-heuristic, qui interroge la bibliothèque cuBLASLt et sélectionne l’algorithme selon une suggestion heuristique ; et +11,4 % par rapport au modèle le plus compétitif, cuBLASLt-AutoTuning, qui choisit l’algorithme le plus rapide parmi jusqu’à 100 candidats issus des suggestions de cuBLASLt. En mode serveur, où les noyaux sont exécutés à intervalles aléatoires afin de simuler une inférence en temps réel, les gains de performance s’accentuent davantage : respectivement +28,7 %, +26,0 %, +22,4 % et +15,9 % par rapport à cette référence, cuBLAS, cuBLASLt-heuristic et cuBLASLt-AutoTuning. Ces résultats démontrent que même les noyaux extrêmement critiques en performance et fortement optimisés, comme HGEMM, peuvent être améliorés grâce à une automatisation guidée par des LLM et basée sur l’apprentissage par renforcement, en explorant systématiquement des espaces de configurations à une échelle impraticable pour l’humain.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp