HyperAIHyperAI

Command Palette

Search for a command to run...

CUDA 13.3 正式支持 C++ Tile 编程,降低 GPU 开发门槛

继 CUDA 13.1 首次推出基于 Tile 的 GPU 编程模型并支持 Python 之后,NVIDIA 在 CUDA 13.3 中正式为 C++ 开发者开启了这一能力。 CUDA Tile 的核心思想是将多维数组以"tile"为基本单位进行计算,屏蔽底层的 SIMT 线程调度、内存移动与异步细节。开发者只需声明数据如何分块、定义 tile 间的数学运算,编译器自动处理并行化、共享内存与 Tensor Core 等硬件特性调用,大幅降低 GPU kernel 的开发复杂度。 与传统的 CUDA C++ SIMT 模式相比,Tile 编程不仅减少了需要手动编写的代码量,还具备跨架构可移植性——同一份代码可自动适配 Ampere、Hopper 及更新的 GPU 架构,无需针对不同硬件重写。 开发者可使用 nvcc 通过 --enable-tile 参数编译 Tile 内核,Nsight Compute 也同步支持对 Tile 内核进行性能分析。运行环境需 Compute Capability 8.x 及以上 GPU、R580+ 驱动与 CUDA Toolkit 13.3。 目前该功能已面向所有 CUDA 开发者开放,文档与 API 参考可在 NVIDIA 官网获取。

相关链接