RAPIDS 25.04:零代码更改加速 Python 机器学习,显著提升 I/O 性能及外存 XGBoost 训练
在过去的两个版本中,RAPIDS(NVIDIA的数据科学加速平台)引入了多项重要更新,包括无代码变更加速机器学习、大幅提高I/O性能以及支持超出内存大小的数据集训练,为数据科学家带来了显著的性能提升和更流畅的用户体验。 无代码变更加速机器学习 NVIDIA cuML现在作为开放测试版(open beta)提供了一个新的用户界面,可以无缝加速使用scikit-learn、UMAP和hdbscan的工作流。这意味着数据科学家可以在不改变任何现有代码的情况下,通过导入cuML库并加载IPython扩展,立即获得由NVIDIA GPU支持的性能提升。具体而言,这种加速效果可以提高5到175倍的运算速度,视算法和数据集而定。 I/O性能显著提升 在近期的版本中,cuDF进行了多项重要的I/O性能优化。特别是对于云对象存储中的数据处理工作负载,cuDF现在可以通过NVIDIA KvikIO并行读取Parquet文件的脚注,使从Amazon S3读取数据的速度提升了超过3倍。例如,在一个配备g4dn.12xlarge实例的EC2集群上,读取46GB的Parquet数据集只需几分钟。 此外,NVIDIA的Blackwell架构集成了一个硬件解压引擎,cuDF 25.02版本开始支持这一功能,使得在解压密集型工作负载中性能提升了35%。这些优化不仅在云端可见,在本地系统中也同样适用。 改进Polars GPU引擎的可用性 为了提升开发者体验,RAPIDS团队与Polars社区合作,推出了两项广受请求的功能,这些功能自25.04版本起可用: 全局配置:用户现在可以通过Polars配置中的set_engine_affinity接口选择默认使用的GPU引擎,从而无需在每个查询中手动指定GPU执行。如果某个查询不支持GPU,Polars会自动回退到CPU引擎。 GPU感知性能分析:新的 profiler 方法支持在使用GPU时进行性能分析,帮助开发者更好地理解查询的运行情况。通过在 LazyFrame 对象上调用 profile() 方法并指定 engine 参数,用户可以轻松获得详细的GPU性能报告。 超大规模数据集支持 在与DMLC社区的合作下,NVIDIA于3月发布了XGBoost 3.0,这是一个重大里程碑。新版本重新设计了外部内存接口,使模型能够在数据量远超内存容量的情况下进行高效训练。这在单个NVIDIA Grace Hopper系统上已经得到了验证,该系统能够处理超过1TB的数据集。 重新设计的森林推理库 最新的 cuML 25.04 版本中,重新设计的Forest Inference Library(FIL)变得更加稳定,适用于生产环境。相比之前的版本,新的FIL在一系列模型参数下实现了40%的中位数性能提升。此外,FIL还引入了三项新功能,进一步简化了树模型的部署流程。 平台更新 Blackwell架构支持:从25.02版本开始,所有RAPIDS项目都支持NVIDIA Blackwell架构的GPU,包括其硬件解压引擎。 Conda安装改进:现在可以通过“严格”通道优先级安装RAPIDS库,支持CUDA 12的x86和ARM SBSA系统,这大大简化了环境创建和包安装过程。 Google Colab AI助手 Google Colab 是最受欢迎的数据科学笔记本平台之一,现在集成了 cuML 和 GPU 加速的 Polars 库,让用户可以零代码变更地利用这些加速库进行数据处理。不仅如此,Colab 还引入了“RAPIDS-aware”的 Gemini 助手,可以生成由 cuDF 支持的加速 pandas 代码。 行业评价与公司背景 业内人士普遍认为,RAPIDS 的这些更新为其在高性能数据科学领域的影响力奠定了坚实的基础。NVIDIA 作为全球领先的计算技术供应商,一直在推动GPU在数据中心和边缘设备上的广泛应用。此次发布不仅展示了NVIDIA在加速计算方面的持续创新,也彰显了其对开发者友好性的高度重视。目前,RAPIDS开源社区已拥有超过3,500名成员,活跃的贡献者和用户群体为该项目的快速发展提供了强大的支持。 通过这些更新,RAPIDS继续致力于降低使用GPU加速数据分析和机器学习的门槛,为未来的数据科学工作流铺平了道路。