HyperAI

日期

5 个月前

标签

RTX 5090

AI 编译器

简介

Triton 是一种用于并行编程的语言和编译器，旨在提供一个基于 Python 的编程环境，以高效编写自定义 DNN 计算内核，并能够在 GPU 硬件上以最大吞吐量运行。

本项目是一套完整的 Triton 学习教程，涵盖了从基础到高级的各个方面，包括向量操作、矩阵运算、层标准化、注意力机制、以及 FP8 矩阵乘法等内容。

参考资源

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

教程概览

级别

入门

主题

主流框架指南大模型开发高性能计算

代码示例

8 教程

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

运行此教程在 Discord 上讨论

日期

5 个月前

标签

RTX 5090

AI 编译器

简介

本项目是一套完整的 Triton 学习教程，涵盖了从基础到高级的各个方面，包括向量操作、矩阵运算、层标准化、注意力机制、以及 FP8 矩阵乘法等内容。

参考资源

本笔记本由社区用户贡献,仅用于教育和信息传播目的。如果任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

教程概览

级别

入门

主题

主流框架指南大模型开发高性能计算

代码示例

8 教程

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Triton 编译器教程

简介

目录

1. 基础操作教程

1.1 向量相加

2. 核心算子教程

2.1 融合 Softmax (Fused Softmax)

2.2 矩阵乘法

2.3 层标准化 (Layer Normalization)

3. 高级特性教程

3.1 低内存 Dropout

3.2 融合注意力 (Fused Attention)

3.3 Libdevice 外部函数

3.4 分组 GEMM (Grouped GEMM)

3.5 持续 FP8 矩阵乘法

3.6 块缩放矩阵乘法

参考资源

教程概览

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Triton 编译器教程

简介

目录

1. 基础操作教程

1.1 向量相加

2. 核心算子教程

2.1 融合 Softmax (Fused Softmax)

2.2 矩阵乘法

2.3 层标准化 (Layer Normalization)

3. 高级特性教程

3.1 低内存 Dropout

3.2 融合注意力 (Fused Attention)

3.3 Libdevice 外部函数

3.4 分组 GEMM (Grouped GEMM)

3.5 持续 FP8 矩阵乘法

3.6 块缩放矩阵乘法

参考资源

教程概览

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Triton 编译器教程

简介

目录

1. 基础操作教程

1.1 向量相加

2. 核心算子教程

2.1 融合 Softmax (Fused Softmax)

2.2 矩阵乘法

2.3 层标准化 (Layer Normalization)

3. 高级特性教程

3.1 低内存 Dropout

3.2 融合注意力 (Fused Attention)

3.3 Libdevice 外部函数

3.4 分组 GEMM (Grouped GEMM)

3.5 持续 FP8 矩阵乘法

3.6 块缩放矩阵乘法

参考资源

教程概览

用 AI 构建 AI

HyperAI Newsletters