HyperAIHyperAI

Command Palette

Search for a command to run...

3 个月前
NVIDIA
GPU

CUDA 13.2 发布:增强 CUDA 瓦片支持并新增 Python 功能

NVIDIA 正式发布 CUDA 13.2 工具包,重点增强了对 Python 开发者的支持,并扩展了 CUDA Tile 功能的应用范围。新版软件现支持 Ampere、Ada 及 Blackwell 架构的 GPU,所有从 Ampere 开始的架构将在未来版本中实现全面支持。 核心更新包括新增的 cuTile Python 功能,简化了高性能 GPU 编程流程。在内存管理上,引入了带属性的异步内存复制 API,使单条内存传输也能享受高级优化,无需再使用复杂的批处理接口。此外,Windows 系统下的本地内存占用显著降低,且默认驱动模式从 TCC 调整为 MCDM,以解决部分系统兼容性问题,同时保留了对 TCC 的手动切换支持。 工具链方面,NVIDIA Nsight Python 上线,允许开发者直接在 Python 环境中进行内核性能分析。Numba-CUDA 内核调试功能首次实现,支持在 VS Code 中设置断点并单步调试。编译器更新支持 Visual Studio 2026 及 ARM 架构扩展,统一了嵌入式与桌面端的开发工具链。 CUDA 13.2 还显著提升了数学库性能。cuBLAS 新增对 Blackwell GPU 的 MXFP8 支持,Grouped GEMM 在专家混合模型场景下速度提升可达 4 倍。cuSOLVER 引入 FP64 模拟技术,在特定硬件上可将 QR 分解等计算性能提升 2 倍。C++ 核心库 CCCL 3.2 推出了基于现代 C++ 的新接口,并增加了 Top-K 选择和固定分段规约等高效算法。 在生态集成上,CuPy 现全面支持 CUDA 13.x,并实现了与 PyTorch 等框架的零拷贝流共享。新版 cuda.core 模块进一步开放了 CUDA 图构建功能,支持复杂的条件执行逻辑。此次发布标志着 NVIDIA 继续推动 Python 成为 GPU 计算的一等公民,在提升开发效率的同时,为 AI 和高性能计算应用提供更强大的底层支持。

相关链接