HyperAI
Command Palette
Search for a command to run...
Triton 컴파일러 튜토리얼
날짜
4달 전
태그
GPU 컴퓨팅 에어드롭
단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
소개
Triton은 병렬 프로그래밍을 위한 언어 및 컴파일러로, GPU 하드웨어에서 최대 처리량으로 실행될 수 있는 맞춤형 DNN 연산 커널을 효율적으로 작성할 수 있는 Python 기반 프로그래밍 환경을 제공하도록 설계되었습니다.
이 프로젝트는 벡터 연산, 행렬 연산, 레이어 정규화, 어텐션 메커니즘, FP8 행렬 곱셈 등 기초부터 고급까지 모든 측면을 다루는 완벽한 Triton 학습 튜토리얼입니다.
목차
1. 기본 작동법 안내
1.1 벡터 덧셈
- 01-vector-add.cn.ipynb 벡터 덧셈에 대한 입문 튜토리얼로, Triton 프로그래밍의 기본 모델을 소개합니다.
2. 핵심 운영자 튜토리얼
2.1 퓨즈드 소프트맥스
- 02-fused-softmax.cn.ipynb - 커널 융합 및 축소 연산을 학습하기 위해 소프트맥스 연산을 통합합니다.
2.2 행렬 곱셈
- 03-행렬 곱셈.cn.ipynb 고성능 행렬 곱셈 구현
2.3 레이어 정규화
- 05-레이어-노름.cn.ipynb – 레이어 정규화 연산자 구현
3. 고급 기능 사용법
3.1 메모리 부족으로 인한 드롭아웃
- 04-저용량 메모리 드롭아웃.cn.ipynb – 메모리 최적화 드롭아웃 구현
3.2 융합된 주의력
- 06-fused-attention.cn.ipynb – 트랜스포머 어텐션 메커니즘 구현
3.3 Libdevice 외부 기능
- 07-extern-functions.cn.ipynb – tl_extra.libdevice 외부 라이브러리 사용
3.4 그룹화된 GEMM
- 08-그룹화된-gemm.cn.ipynb – 그룹화된 일반 행렬 곱셈 구현
3.5 연속 FP8 행렬 곱셈
- 09-지속적인-matmul.cn.ipynb – FP8 정밀도를 사용한 행렬 곱셈 최적화
3.6 블록 스케일링 행렬 곱셈
- 10블록 규모의 matmul.cn.ipynb – 블록 스케일링 행렬 곱셈 구현
참고 자료
이 노트북은 커뮤니티 사용자가 기여한 것으로 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.