Exécuter ce Notebook Discuter sur Discord

Date

il y a 5 mois

Balises

Introduction

Triton est un langage et un compilateur pour la programmation parallèle, conçu pour fournir un environnement de programmation basé sur Python permettant d'écrire efficacement des noyaux de calcul DNN personnalisés capables de fonctionner à débit maximal sur du matériel GPU.

Ce projet est un tutoriel d'apprentissage complet sur Triton, couvrant tous les aspects, des bases aux techniques avancées, y compris les opérations vectorielles, les opérations matricielles, la normalisation des couches, les mécanismes d'attention et la multiplication matricielle FP8.

Table des matières

1. Tutoriel sur les opérations de base

1.1 Addition vectorielle

01-vector-add.cn.ipynb – Un tutoriel d'introduction à l'addition vectorielle, présentant le modèle de programmation de base de Triton.

2. Tutoriel sur l'opérateur principal

2.1 Softmax fusionné

02-fused-softmax.cn.ipynb – Intégrer les opérations Softmax pour apprendre les opérations de fusion et de réduction de noyau.

2.2 Multiplication matricielle

03-matrix-multiplication.cn.ipynb Implémentation de multiplication matricielle haute performance

2.3 Normalisation des couches

05-layer-norm.cn.ipynb – Implémentation de l'opérateur de normalisation de couche

3. Tutoriel sur les fonctionnalités avancées

3.1 Décrochage en cas de faible mémoire

04-low-memory-dropout.cn.ipynb – Implémentation Dropout optimisée en mémoire

3.2 Attention fusionnée

06-fusion-attention.cn.ipynb – Mise en œuvre du mécanisme d'attention du Transformer

3.3 Fonctions externes de Libdevice

07-extern-functions.cn.ipynb – Utilisation de la bibliothèque externe tl_extra.libdevice

3.4 GEMM groupé

08-grouped-gemm.cn.ipynb – Implémentation de la multiplication matricielle générale groupée

3.5 Multiplication matricielle FP8 continue

09-persistent-matmul.cn.ipynb – Optimisation de la multiplication matricielle avec une précision FP8

3.6 Multiplication de matrices de mise à l'échelle par blocs

10-block-scaled-matmul.cn.ipynb – Implémentation de la multiplication matricielle par mise à l'échelle par blocs

Ressources de référence

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Vue d’ensemble de Notebook

Niveau

Débutant

Rubrique

Guides des frameworks Ingénierie des LLM Calcul haute performance

Exemples de code

8 Notebooks

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Exécuter ce Notebook Discuter sur Discord

Date

il y a 5 mois

Balises

RTX 5090

Compilateur IA

Introduction

Table des matières

1. Tutoriel sur les opérations de base

1.1 Addition vectorielle

01-vector-add.cn.ipynb – Un tutoriel d'introduction à l'addition vectorielle, présentant le modèle de programmation de base de Triton.

2. Tutoriel sur l'opérateur principal

2.1 Softmax fusionné

02-fused-softmax.cn.ipynb – Intégrer les opérations Softmax pour apprendre les opérations de fusion et de réduction de noyau.

2.2 Multiplication matricielle

03-matrix-multiplication.cn.ipynb Implémentation de multiplication matricielle haute performance

2.3 Normalisation des couches

05-layer-norm.cn.ipynb – Implémentation de l'opérateur de normalisation de couche

3. Tutoriel sur les fonctionnalités avancées

3.1 Décrochage en cas de faible mémoire

04-low-memory-dropout.cn.ipynb – Implémentation Dropout optimisée en mémoire

3.2 Attention fusionnée

06-fusion-attention.cn.ipynb – Mise en œuvre du mécanisme d'attention du Transformer

3.3 Fonctions externes de Libdevice

07-extern-functions.cn.ipynb – Utilisation de la bibliothèque externe tl_extra.libdevice

3.4 GEMM groupé

08-grouped-gemm.cn.ipynb – Implémentation de la multiplication matricielle générale groupée

3.5 Multiplication matricielle FP8 continue

09-persistent-matmul.cn.ipynb – Optimisation de la multiplication matricielle avec une précision FP8

3.6 Multiplication de matrices de mise à l'échelle par blocs

10-block-scaled-matmul.cn.ipynb – Implémentation de la multiplication matricielle par mise à l'échelle par blocs

Ressources de référence

Vue d’ensemble de Notebook

Niveau

Débutant

Rubrique

Guides des frameworks Ingénierie des LLM Calcul haute performance

Exemples de code

8 Notebooks

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Exécuter ce Notebook Discuter sur Discord

Date

il y a 5 mois

Balises

RTX 5090

Compilateur IA

Introduction

Table des matières

1. Tutoriel sur les opérations de base

1.1 Addition vectorielle

01-vector-add.cn.ipynb – Un tutoriel d'introduction à l'addition vectorielle, présentant le modèle de programmation de base de Triton.

2. Tutoriel sur l'opérateur principal

2.1 Softmax fusionné

02-fused-softmax.cn.ipynb – Intégrer les opérations Softmax pour apprendre les opérations de fusion et de réduction de noyau.

2.2 Multiplication matricielle

03-matrix-multiplication.cn.ipynb Implémentation de multiplication matricielle haute performance

2.3 Normalisation des couches

05-layer-norm.cn.ipynb – Implémentation de l'opérateur de normalisation de couche

3. Tutoriel sur les fonctionnalités avancées

3.1 Décrochage en cas de faible mémoire

04-low-memory-dropout.cn.ipynb – Implémentation Dropout optimisée en mémoire

3.2 Attention fusionnée

06-fusion-attention.cn.ipynb – Mise en œuvre du mécanisme d'attention du Transformer

3.3 Fonctions externes de Libdevice

07-extern-functions.cn.ipynb – Utilisation de la bibliothèque externe tl_extra.libdevice

3.4 GEMM groupé

08-grouped-gemm.cn.ipynb – Implémentation de la multiplication matricielle générale groupée

3.5 Multiplication matricielle FP8 continue

09-persistent-matmul.cn.ipynb – Optimisation de la multiplication matricielle avec une précision FP8

3.6 Multiplication de matrices de mise à l'échelle par blocs

10-block-scaled-matmul.cn.ipynb – Implémentation de la multiplication matricielle par mise à l'échelle par blocs

Ressources de référence

Vue d’ensemble de Notebook

Niveau

Débutant

Rubrique

Guides des frameworks Ingénierie des LLM Calcul haute performance

Exemples de code

8 Notebooks

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Tutoriel Sur Le Compilateur Triton

Introduction

Table des matières

1. Tutoriel sur les opérations de base

1.1 Addition vectorielle

2. Tutoriel sur l'opérateur principal

2.1 Softmax fusionné

2.2 Multiplication matricielle

2.3 Normalisation des couches

3. Tutoriel sur les fonctionnalités avancées

3.1 Décrochage en cas de faible mémoire

3.2 Attention fusionnée

3.3 Fonctions externes de Libdevice

3.4 GEMM groupé

3.5 Multiplication matricielle FP8 continue

3.6 Multiplication de matrices de mise à l'échelle par blocs

Ressources de référence

Vue d’ensemble de Notebook

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Tutoriel Sur Le Compilateur Triton

Introduction

Table des matières

1. Tutoriel sur les opérations de base

1.1 Addition vectorielle

2. Tutoriel sur l'opérateur principal

2.1 Softmax fusionné

2.2 Multiplication matricielle

2.3 Normalisation des couches

3. Tutoriel sur les fonctionnalités avancées

3.1 Décrochage en cas de faible mémoire

3.2 Attention fusionnée

3.3 Fonctions externes de Libdevice

3.4 GEMM groupé

3.5 Multiplication matricielle FP8 continue

3.6 Multiplication de matrices de mise à l'échelle par blocs

Ressources de référence

Vue d’ensemble de Notebook

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Tutoriel Sur Le Compilateur Triton

Introduction

Table des matières

1. Tutoriel sur les opérations de base

1.1 Addition vectorielle

2. Tutoriel sur l'opérateur principal

2.1 Softmax fusionné

2.2 Multiplication matricielle

2.3 Normalisation des couches

3. Tutoriel sur les fonctionnalités avancées

3.1 Décrochage en cas de faible mémoire

3.2 Attention fusionnée

3.3 Fonctions externes de Libdevice

3.4 GEMM groupé

3.5 Multiplication matricielle FP8 continue

3.6 Multiplication de matrices de mise à l'échelle par blocs

Ressources de référence

Vue d’ensemble de Notebook

Créer de l'IA avec l'IA

HyperAI Newsletters