CUDA-L1: 대조적 강화학습을 통한 CUDA 최적화 개선

대형 언어 모델(Large Language Models, LLMs)의 급속한 발전으로 인해 GPU 컴퓨팅 자원에 대한 수요가 지수적으로 증가함에 따라, 자동화된 CUDA 최적화 전략의 시급한 필요성이 제기되었습니다. 최근 LLMs의 발전은 코드 생성 분야에서 희망적인 결과를 보여주고 있지만, 현재 최신 기술(SOTA) 모델들(예: R1, o1)은 CUDA 속도 개선에서 낮은 성공률을 기록하고 있습니다. 본 논문에서는 CUDA 최적화를 위한 자동화된 강화 학습 프레임워크인 CUDA-L1을 소개합니다. CUDA-L1은 CUDA 최적화 작업에서 성능 개선을 달성하였습니다: NVIDIA A100에서 훈련된 이 모델은 KernelBench의 250개 모든 CUDA 커널에서 평균 17.7배의 속도 향상을 제공하며, 최대 449배의 속도 향상까지 도달하였습니다. 또한, 이 모델은 GPU 아키텍처 간 뛰어난 이식성을 보여주며, H100에서는 평균 17.8배, RTX 3090에서는 19.0배, L40에서는 16.5배, H800에서는 14.7배, H20에서는 13.9배의 속도 향상을 달성하였음에도 불구하고 A100에 특화되어 최적화되었습니다. 벤치마크 결과를 넘어서 CUDA-L1은 다음과 같은 몇 가지 놀라운 특성을 보여줍니다: 1) 다양한 CUDA 최적화 기법을 발견하고 이를 전략적으로 결합하여 최적 성능을 달성하는 방법을 배웁니다; 2) CUDA 최적화의 근본 원칙들을 밝혀냅니다; 3) 명백하지 않은 성능 병목 현상을 식별하고 성능 저하를 초래하는 것처럼 보이는 최적화를 거부합니다. CUDA-L1의 능력은 강화 학습이 사람의 전문 지식이나 영역 지식 없이 속도 향상 기반 보상 신호만으로 초기 성능이 부족한 LLM을 효과적인 CUDA 옵티마이저로 변화시킬 수 있음을 입증합니다. 더욱 중요한 점은, 훈련된 RL 모델이 새로운 커널에 획득한 추론 능력을 확장할 수 있다는 것입니다. 이러한 패러다임은 CUDA 연산의 자동 최적화 가능성을 열어주며, GPU 효율성을 크게 증진시키고 증가하는 GPU 컴퓨팅 자원에 대한 압박을 완화할 가능성을 제시합니다.