NVIDIA RAPIDS 25.08重磅发布:cuML性能分析工具上线,Polars GPU引擎全面升级,新增多项算法支持
NVIDIA RAPIDS 25.08 版本正式发布,进一步推动加速数据科学的可访问性与可扩展性,带来多项关键更新。新版本引入了针对 cuML 的全新性能分析工具,增强了 Polars GPU 引擎处理大规模数据的能力,并新增多个机器学习算法支持,同时宣布停止对 CUDA 11 的支持。 新版本为 cuML 的零代码加速模块(cuml.accel)增加了两种性能分析工具:函数级和行级分析器。函数级分析器可显示代码中各函数在 GPU 或 CPU 上的执行情况及耗时,适用于 Jupyter Notebook 中通过 %%cuml.accel.profile 魔法命令或命令行使用 --profile 标志进行分析。行级分析器则提供更细粒度的逐行执行追踪,支持 %%cuml.accel.line_profile 和 --line-profile 命令,帮助用户精准定位性能瓶颈,提升调试效率。 在 Polars GPU 引擎方面,25.08 版本将“流式执行器”设为默认模式。该模式通过数据分块处理,使模型可处理远超 GPU 显存容量的数据集,显著提升大规模数据处理的性能与可扩展性。对于超出显存的数据,流式执行器仍可自动回退至内存执行,且已支持几乎所有原生 GPU 内存操作。实测显示,在 300GB 超显存数据集上,流式执行效率比传统内存模式快近 5 倍。 此外,Polars GPU 引擎现已支持结构体(struct)列操作和更丰富的字符串处理函数,所有相关操作均在 GPU 上完成,避免了此前因数据类型不兼容导致的 CPU 回退问题,大幅优化了复杂数据处理性能。 在 cuML 机器学习库方面,新增 Spectral Embedding 算法,用于高维数据降维与流形学习,API 与 scikit-learn 保持一致。同时,LinearSVC、LinearSVR 和 KernelRidge 等算法也已加入零代码加速支持,覆盖全部支持向量机类算法,进一步丰富了 cuML 的加速生态。 值得注意的是,25.08 版本正式停止对 CUDA 11 的支持,所有容器、发布包及源码构建均需升级至 CUDA 12 或更高版本。如需继续使用 CUDA 11,可回退至 RAPIDS 25.06 版本。 总体而言,RAPIDS 25.08 通过性能分析工具、流式执行优化、数据类型扩展和算法新增,显著提升了数据科学工作流的效率与灵活性,进一步推动 GPU 加速在主流数据处理与机器学习中的落地应用。开发者可通过官方文档、GitHub 反馈或加入 RAPIDS Slack 社区获取支持,新手还可通过免费课程快速入门。