HyperAI
Command Palette
Search for a command to run...
Triton コンパイラチュートリアル
導入
Triton は並列プログラミング用の言語とコンパイラであり、GPU ハードウェア上で最大のスループットで実行できるカスタム DNN 計算カーネルを効率的に記述するための Python ベースのプログラミング環境を提供するように設計されています。
このプロジェクトは、ベクトル演算、行列演算、レイヤーの正規化、アテンション メカニズム、FP8 行列乗算など、基本から高度まであらゆる側面を網羅した完全な Triton 学習チュートリアルです。
目次
1. 基本操作チュートリアル
1.1 ベクトルの加算
- 01-vector-add.cn.ipynb – 基本的な Triton プログラミング モデルを紹介する、ベクトル加算の入門チュートリアル。
2. コアオペレータチュートリアル
2.1 融合ソフトマックス
- 02-fused-softmax.cn.ipynb – Softmax 演算を統合してカーネルの融合と削減演算を学習します。
2.2 行列の乗算
- 03-行列乗算.cn.ipynb 高性能行列乗算実装
2.3 レイヤーの正規化
- 05層ノルム.cn.ipynb – レイヤー正規化演算子の実装
3. 高度な機能のチュートリアル
3.1 低メモリドロップアウト
- 04-低メモリドロップアウト.cn.ipynb – メモリ最適化されたドロップアウト実装
3.2 融合注意
- 06-fused-attention.cn.ipynb – Transformer Attentionメカニズムの実装
3.3 Libdevice外部関数
- 07-extern-functions.cn.ipynb – tl_extra.libdevice外部ライブラリの使用
3.4 グループ化されたGEMM
- 08-グループ化-gemm.cn.ipynb – グループ化された一般行列乗算の実装
3.5 連続FP8行列乗算
- 09-persistent-matmul.cn.ipynb – FP8精度の行列乗算の最適化
3.6 ブロックスケーリング行列乗算
- 10ブロックスケールのmatmul.cn.ipynb – ブロックスケーリング行列乗算の実装
参考資料
このノートブックはコミュニティユーザーによって提供されたものであり、教育および情報提供のみを目的としています。コンテンツに著作権侵害が含まれる場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。