HyperAIHyperAI

Command Palette

Search for a command to run...

CudaForge: 하드웨어 피드백을 갖춘 CUDA 커널 최적화를 위한 에이전트 프레임워크

Zijian Zhang Rong Wang Shiyang Li Yuebo Luo Mingyi Hong Caiwen Ding

초록

AI 애플리케이션, 특히 대규모 LLM 학습과 같은 분야에서 효율적인 CUDA 커널 개발은 점점 더 중요해지고 있다. 그러나 수동적인 커널 설계는 비용이 많이 들고 시간이 오래 걸리기 때문에, LLM을 활용한 코드 생성을 통한 자동화된 접근 방식이 필요하게 되었다. 그러나 기존의 자동 커널 생성 방법들은 종종 낮은 효율성의 커널을 생성하고, 높은 계산 부하를 유발하며, 다양한 환경 간 일반화 능력이 부족한 문제가 있다. 본 연구에서는 CUDA 커널 생성 및 최적화를 위한 훈련 없이도 작동하는 다중 에이전트 워크플로우인 CudaForge를 제안한다. 본 워크플로우는 인간 전문가들이 반복적으로 수행하는 작업 흐름—초기 커널 개발, 정확성 검증, 하드웨어 피드백 분석, 반복적 개선 등—에서 영감을 받았다. 구체적으로 CudaForge는 Coder와 Judge라는 두 가지 LLM 기반 에이전트를 활용하여 CUDA 커널을 반복적으로 생성하고 수정하며 최적화하며, Nsight Compute(NCU) 메트릭과 같은 하드웨어 피드백을 통합한다. 광범위한 평가 결과, OpenAI-o3와 같은 기본 모델을 활용함으로써 CudaForge는 생성된 커널의 정확도를 97.6%까지 달성하고, PyTorch 기준 대비 평균 1.68배의 성능 향상을 보였다. 이는 OpenAI-o3 및 Kevin과 같은 최첨단 모델들을 크게 능가하며, 해당 링크(http URL)에서 제시된 정확도와 속도 측면에서 뛰어난 성능을 입증하였다. 또한 CudaForge는 A100, RTX 6000, 4090, 3090 등 다양한 GPU 아키텍처와 OpenAI-o3, GPT-5, gpt-oss-120B, Claude-Sonnet-4, QwQ-32B 등 다양한 기반 모델 간에도 뛰어난 일반화 능력을 보이며, 높은 효율성을 유지한다. 특히, 최적화된 커널을 생성하는 데는 RTX 6000 한 대에서 약 26.5분이 소요되며, API 비용은 약 0.3달러에 그치며, 기존의 에이전트 기반 워크플로우(각 커널당 6시간의 H100 사용 및 5달러의 API 비용)에 비해 훨씬 저렴하다. 본 연구 결과는 다중 에이전트 기반, 훈련이 필요 없는 워크플로우가 비용 효율적이고, 일반화 가능하며, 높은 성능을 달성하는 CUDA 커널 최적화를 가능하게 한다는 점을 강조한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
CudaForge: 하드웨어 피드백을 갖춘 CUDA 커널 최적화를 위한 에이전트 프레임워크 | 문서 | HyperAI초신경