
摘要
本文提出CUDA-L2,一个融合大语言模型(LLMs)与强化学习(RL)的系统,用于自动优化半精度通用矩阵乘法(HGEMM)的CUDA内核。该系统以CUDA执行速度作为强化学习的奖励信号,能够自动在1,000种配置中搜索并优化HGEMM内核。在离线模式下,CUDA-L2系统性地超越了当前主流的矩阵乘法基线方法,包括广泛使用的开源库this http URL,以及业界最先进的NVIDIA闭源库cuBLAS和cuBLASLt。具体而言,在连续执行内核、无时间间隔的离线场景中,CUDA-L2相较this http URL平均提升22.0%;相较采用最优布局配置(normal-normal NN 与 transposed-normal TN)的cuBLAS提升19.2%;相较基于启发式策略查询cuBLASLt库并选择算法的cuBLASLt-heuristic提升16.8%;相较从cuBLASLt建议的最多100个候选算法中选择最优方案的cuBLASLt-AutoTuning模型提升11.4%。在服务器模式下,即内核以随机间隔执行、模拟真实推理场景时,性能提升进一步扩大:相较this http URL提升28.7%,相较cuBLAS提升26.0%,相较cuBLASLt-heuristic提升22.4%,相较cuBLASLt-AutoTuning提升15.9%。结果表明,即使对于性能关键、高度优化的内核(如HGEMM),通过大语言模型引导的强化学习自动化方法,系统性地探索人类难以处理的超大规模配置空间,仍可实现显著的性能提升。