Command Palette
Search for a command to run...
Triton 编译器教程
An error occurred in the Server Components render. The specific message is omitted in production builds to avoid leaking sensitive details. A digest property is included on this error instance which may provide additional details about the nature of the error.
Failed to load notebook details简介
Triton 是一种用于并行编程的语言和编译器,旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在 GPU 硬件上以最大吞吐量运行。
本项目是一套完整的 Triton 学习教程,涵盖了从基础到高级的各个方面,包括向量操作、矩阵运算、层标准化、注意力机制、以及 FP8 矩阵乘法等内容。
目录
1. 基础操作教程
1.1 向量相加
- 01-vector-add.cn.ipynb – 向量加法入门教程,介绍 Triton 基本编程模型
2. 核心算子教程
2.1 融合 Softmax (Fused Softmax)
- 02-fused-softmax.cn.ipynb – 融合 Softmax 操作,学习内核融合和缩减操作
2.2 矩阵乘法
- 03-matrix-multiplication.cn.ipynb – 高性能矩阵乘法实现
2.3 层标准化 (Layer Normalization)
- 05-layer-norm.cn.ipynb – 层标准化算子实现
3. 高级特性教程
3.1 低内存 Dropout
- 04-low-memory-dropout.cn.ipynb – 内存优化的 Dropout 实现
3.2 融合注意力 (Fused Attention)
- 06-fused-attention.cn.ipynb – Transformer 注意力机制的融合实现
3.3 Libdevice 外部函数
- 07-extern-functions.cn.ipynb – 使用 tl_extra.libdevice 外部函数库
3.4 分组 GEMM (Grouped GEMM)
- 08-grouped-gemm.cn.ipynb – 分组通用矩阵乘法实现
3.5 持续 FP8 矩阵乘法
- 09-persistent-matmul.cn.ipynb – FP8 精度的矩阵乘法优化
3.6 块缩放矩阵乘法
- 10-block-scaled-matmul.cn.ipynb – 块缩放矩阵乘法实现
参考资源
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.