CUDA-L2: Überbietung der Leistung von cuBLAS bei Matrixmultiplikation durch Verstärkungslernen
CUDA-L2: Überbietung der Leistung von cuBLAS bei Matrixmultiplikation durch Verstärkungslernen

Abstract
In diesem Paper stellen wir CUDA-L2 vor, ein System, das große Sprachmodelle (Large Language Models, LLMs) und Verstärkungslernen (Reinforcement Learning, RL) kombiniert, um HGEMM-CUDA-Kerne – also Halbpräzisions-Allgemeine Matrix-Matrix-Produkte – automatisch zu optimieren. Unter Verwendung der CUDA-Ausführungszeit als Belohnung im RL-Verfahren optimiert CUDA-L2 HGEMM-Kerne systematisch über 1.000 Konfigurationen hinweg. CUDA-L2 übertrifft systematisch alle bisherigen bedeutenden Matmul-Baselines, von dem weit verbreiteten this http URL bis hin zu den state-of-the-art, proprietären Bibliotheken von Nvidia, nämlich cuBLAS und cuBLASLt. Im Offline-Modus, bei dem Kerne nacheinander ohne zeitliche Abstände ausgeführt werden, erzielt CUDA-L2 im Durchschnitt eine Geschwindigkeitssteigerung von +22,0 % gegenüber this http URL; +19,2 % gegenüber cuBLAS bei optimaler Layout-Konfiguration (normal-normal NN und transponiert-normal TN); +16,8 % gegenüber cuBLASLt-heuristic, das auf Basis einer Heuristik aus der cuBLASLt-Bibliothek einen Algorithmus auswählt; sowie +11,4 % gegenüber dem leistungsstärksten Modell cuBLASLt-AutoTuning, das den schnellsten Algorithmus aus bis zu 100 Kandidaten aus den Vorschlägen von cuBLASLt auswählt. Im Server-Modus, bei dem Kerne in zufälligen Abständen ausgeführt werden, um reale Inference-Szenarien nachzuahmen, steigern sich die Geschwindigkeitszuwächse weiter auf +28,7 %, +26,0 %, +22,4 % und +15,9 % gegenüber this http URL, cuBLAS, cuBLASLt-heuristic und cuBLASLt-AutoTuning. CUDA-L2 zeigt, dass selbst die leistungsintensivsten und stark optimierten Kerne wie HGEMM durch eine LLM-gesteuerte RL-Automatisierung systematisch verbessert werden können, indem Konfigurationsräume in einem Umfang erschlossen werden, der für Menschen praktisch unerreichbar ist.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.