HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 17 Stunden

CUDA-L2: Überbietung der Leistung von cuBLAS bei Matrixmultiplikation durch Verstärkungslernen

CUDA-L2: Überbietung der Leistung von cuBLAS bei Matrixmultiplikation durch Verstärkungslernen

Abstract

In diesem Paper stellen wir CUDA-L2 vor, ein System, das große Sprachmodelle (Large Language Models, LLMs) und Verstärkungslernen (Reinforcement Learning, RL) kombiniert, um HGEMM-CUDA-Kerne – also Halbpräzisions-Allgemeine Matrix-Matrix-Produkte – automatisch zu optimieren. Unter Verwendung der CUDA-Ausführungszeit als Belohnung im RL-Verfahren optimiert CUDA-L2 HGEMM-Kerne systematisch über 1.000 Konfigurationen hinweg. CUDA-L2 übertrifft systematisch alle bisherigen bedeutenden Matmul-Baselines, von dem weit verbreiteten this http URL bis hin zu den state-of-the-art, proprietären Bibliotheken von Nvidia, nämlich cuBLAS und cuBLASLt. Im Offline-Modus, bei dem Kerne nacheinander ohne zeitliche Abstände ausgeführt werden, erzielt CUDA-L2 im Durchschnitt eine Geschwindigkeitssteigerung von +22,0 % gegenüber this http URL; +19,2 % gegenüber cuBLAS bei optimaler Layout-Konfiguration (normal-normal NN und transponiert-normal TN); +16,8 % gegenüber cuBLASLt-heuristic, das auf Basis einer Heuristik aus der cuBLASLt-Bibliothek einen Algorithmus auswählt; sowie +11,4 % gegenüber dem leistungsstärksten Modell cuBLASLt-AutoTuning, das den schnellsten Algorithmus aus bis zu 100 Kandidaten aus den Vorschlägen von cuBLASLt auswählt. Im Server-Modus, bei dem Kerne in zufälligen Abständen ausgeführt werden, um reale Inference-Szenarien nachzuahmen, steigern sich die Geschwindigkeitszuwächse weiter auf +28,7 %, +26,0 %, +22,4 % und +15,9 % gegenüber this http URL, cuBLAS, cuBLASLt-heuristic und cuBLASLt-AutoTuning. CUDA-L2 zeigt, dass selbst die leistungsintensivsten und stark optimierten Kerne wie HGEMM durch eine LLM-gesteuerte RL-Automatisierung systematisch verbessert werden können, indem Konfigurationsräume in einem Umfang erschlossen werden, der für Menschen praktisch unerreichbar ist.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp