Command Palette
Search for a command to run...
Triton Compiler Tutorial
Einführung
Triton ist eine Sprache und ein Compiler für die parallele Programmierung, der eine Python-basierte Programmierumgebung für das effiziente Schreiben benutzerdefinierter DNN-Berechnungskerne bietet, die mit maximalem Durchsatz auf GPU-Hardware ausgeführt werden können.
Dieses Projekt ist ein vollständiges Triton-Lern-Tutorial, das alle Aspekte von den Grundlagen bis zu fortgeschrittenen Themen abdeckt, einschließlich Vektoroperationen, Matrixoperationen, Layer-Normalisierung, Aufmerksamkeitsmechanismen und FP8-Matrixmultiplikation.
Inhaltsverzeichnis
1. Grundlegende Bedienungsanleitung
1.1 Vektoraddition
- 01-vector-add.cn.ipynb – Ein einführendes Tutorial zur Vektoraddition, das das grundlegende Triton-Programmiermodell vorstellt.
2. Tutorial zu Kernoperatoren
2.1 Verschmolzenes Softmax
- 02-fused-softmax.cn.ipynb – Integrieren Sie Softmax-Operationen, um Kernel-Fusions- und Reduktionsoperationen zu erlernen.
2.2 Matrizenmultiplikation
- 03-matrix-multiplication.cn.ipynb Hochleistungsfähige Implementierung der Matrixmultiplikation
2.3 Ebenennormalisierung
- 05-layer-norm.cn.ipynb – Implementierung des Layer-Normalisierungsoperators
3. Tutorial zu erweiterten Funktionen
3.1 Speichermangel
- 04-low-memory-dropout.cn.ipynb – Speicheroptimierte Dropout-Implementierung
3.2 Verschmolzene Aufmerksamkeit
- 06-fused-attention.cn.ipynb – Implementierung des Transformer-Aufmerksamkeitsmechanismus
3.3 Externe Libdevice-Funktionen
- 07-extern-functions.cn.ipynb – Verwendung der externen Bibliothek tl_extra.libdevice
3.4 Gruppiertes GEMM
- 08-grouped-gemm.cn.ipynb – Gruppierte allgemeine Matrixmultiplikationsimplementierung
3.5 Kontinuierliche FP8-Matrixmultiplikation
- 09-persistent-matmul.cn.ipynb – Optimierung der Matrixmultiplikation mit FP8-Genauigkeit
3.6 Blockskalierung Matrixmultiplikation
- 10-block-scaled-matmul.cn.ipynb – Implementierung der Matrixmultiplikation mit Blockskalierung
Referenzressourcen
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.