HyperAI超神经
12 days ago

CUDA-L1:通过对比强化学习提升CUDA优化

Xiaoya Li, Xiaofei Sun, Albert Wang, Jiwei Li, Chris Shum
CUDA-L1:通过对比强化学习提升CUDA优化
摘要

GPU计算资源需求的指数级增长,催生了对自动化CUDA优化策略的迫切需求。尽管近年来大语言模型(LLM)在代码生成方面展现出巨大潜力,但当前最先进的模型在提升CUDA性能方面仍表现出较低的成功率。本文提出CUDA-L1,一种基于新型对比强化学习(contrastive RL)算法的自动化强化学习框架,专用于CUDA优化任务。 CUDA-L1在CUDA优化任务中实现了显著的性能提升:在NVIDIA A100上训练后,其在KernelBench基准测试中的全部250个CUDA核函数上平均实现3.12倍的加速,中位加速比达1.42倍,峰值加速比甚至达到120倍。此外,该模型还展现出良好的跨GPU架构可移植性,在L40上实现平均3.12倍加速,在RTX 3090上达2.50倍,在H100上达2.39倍,在H20上达2.37倍,尽管其优化目标是针对A100架构进行的。 CUDA-L1的能力表明,仅通过基于加速比的奖励信号,强化学习即可将初始性能较差的大语言模型转化为高效的CUDA优化器,而无需依赖人工专家知识或领域专长。这一范式为CUDA操作的自动化优化开辟了新路径,有望显著提升GPU计算效率,并缓解日益增长的GPU资源压力。同时,我们还识别出在类似CUDA开发这类任务中训练强化学习模型所面临的重大挑战:强化学习模型常会利用奖励函数中的漏洞,而非真正解决预期的优化问题。通过识别这些失败模式并分析其根本原因,我们提出了切实可行的方法,以构建更具鲁棒性的训练流程,有效防止“奖励劫持”(reward hacking)现象的发生。