CODA: Transformer-Blöcke als GEMM-Programme
Neue Forschungsarbeiten stellen CODA vor, eine innovative Abstraktion für GPU-Kerne, die den Energieverbrauch und die Effizienz beim Training großer Transformer-Modelle verbessern soll. Viele moderne Trainingssysteme basieren zwar auf dichter linearer Algebra, doch ein beträchtlicher Teil der Gesamtzeit wird von Speicherbindungsoperationen verbraucht. Prozesse wie Normalisierung, Aktivierungsfunktionen, Residual-Updates und Reduktionen bewegen große Zwischentensoren wiederholt durch den globalen Speicher, obwohl sie wenig rechnerische Leistung erbringen. Da die Datenübertragung in ohnehin hochoptimierten Trainingspipelines zunehmend zum Engpass wird, ist dieser Ansatz notwendig, um die Skalierbarkeit zu erhalten. CODA löst dieses Problem, indem es diese komplexen Berechnungen als GEMM-plus-Epilog-Programme umschreibt. GEMM steht für General Matrix Multiplication und ist die Grundrechenoperation in diesem Kontext. Die zugrundeliegende Beobachtung der Forscher lautet, dass viele Transformer-Operatoren, die üblicherweise als getrennte Framework-Kerne implementiert sind, algebraisch so umformuliert werden können, dass sie ausgeführt werden, während ein GEMM-Ausgabesegment noch im On-Chip-Speicher verweilt, bevor es in den langsameren globalen Speicher geschrieben wird. Dies eliminiert den überflüssigen Schreib- und Lesevorgang für Zwischenergebnisse. Die Abstraktion fixiert den Hauptrechenzyklus des GEMM und bietet einen kleinen Satz kombinierbarer Epilog-Primitiven für Skalierung, Reduktionen, paarweise Transformationen und Akkumulation an. Durch diese eingeschränkte Schnittstelle bleibt die Leistungsstruktur von manuell optimierten GEMMs erhalten, während das System gleichzeitig ausdruckstark genug ist, um fast alle Nicht-Aufmerksamkeitsberechnungen im Vorwärts- und Rückwärtsdurchgang eines Standard-Transformer-Blocks abzudecken. Dies ermöglicht es Entwicklern, komplexe mathematische Operationen effizienter zu gestalten, ohne auf die hohe Performance der Hardware zugunsten von Benutzerfreundlichkeit verzichten zu müssen. Die Validierung der Methode erfolgte anhand repräsentativer Transformer-Arbeitslasten. Dabei zeigten sowohl von Menschen geschriebene als auch von Sprachmodellen generierte CODA-Kerne hohe Performance-Werte. Diese Ergebnisse deuten darauf hin, dass die Programmierung nach dem GEMM-plus-Epilog-Paradigma einen praktischen Weg darstellt, um die Produktivität auf Framework-Ebene mit der Effizienz auf Hardware-Ebene zu vereinen. Dies ist besonders relevant, da künstliche Intelligenz-Modelle immer größer werden und die Anforderungen an die Recheninfrastruktur exponentiell steigen. Die Forschung stammt aus dem Bereich Maschinelles Lernen und wurde unter der Kennung arXiv:2605.19269 publiziert. Die Autoren argumentieren, dass dieser Ansatz nicht nur die Geschwindigkeit des Trainings erhöht, sondern auch die Kosten für den Betrieb großer KI-Modelle senken könnte, indem weniger Energie für die Datenbewegung verbraucht wird. Indem sie die Rechenarchitektur neu denken und die Datenbewegung minimieren, tragen sie dazu bei, die aktuellen Grenzen des Transfomers-Trainings zu erweitern. Die Einführung solcher Abstraktionen könnte in Zukunft dazu führen, dass Frameworks und Hardware-Hersteller enger zusammenarbeiten, um Standards zu setzen, die sowohl die Entwicklerproduktivität als auch die Hardwareauslastung maximieren. Mit CODA wird gezeigt, dass algebraische Umformulierungen von Operationen einen direkten und messbaren Gewinn an Effizienz bringen, ohne dass tiefgreifende Änderungen an den zugrunde liegenden Algorithmen notwendig sind.
