Back to Headlines

NeMo-RL v0.3 출시: Megatron-Core 지원으로 대규모 언어 모델 강화 학습 성능 혁신

15일 전

NVIDIA는 NeMo-RL v0.3에서 Megatron-Core 백엔드 지원을 추가하며 대규모 언어 모델의 강화학습 훈련 효율성을 획기적으로 향상시켰다. 기존 PyTorch DTensor(=FSDP2) 기반 훈련은 모델 크기가 수백억 파라미터를 넘을 경우 활성화 메모리로 인한 재계산 오버헤드로 인해 단계당 시간이 급격히 증가하고, 최적화된 CUDA 커널 부족으로 성능이 제한됐다. 이를 해결하기 위해 개발된 Megatron-Core는 GPU 최적화 기술과 6D 병렬 전략(텐서, 파이프라인, 시퀀스, 컨텍스트 병렬)을 기반으로 고성능 훈련을 가능하게 한다. NeMo-RL v0.3은 Megatron-Core를 쉽게 활용할 수 있도록 구성 파일 내 policy.megatron_cfg 섹션을 추가만 하면 되는 간편한 인터페이스를 제공하며, 복잡한 하드웨어 수준 설정은 내부에서 자동 처리한다. 실험 결과, Llama 3.1-8B와 70B 모델에서 DTensor 대비 단계당 훈련 시간이 20~30% 이상 단축되었으며, 수천 개의 GPU를 활용한 16K 길이의 긴 시퀀스 훈련에서도 안정적인 성능을 보였다. 또한 시퀀스 패킹과 중요도 샘플링 기법을 통해 훈련 정확도와 수렴 안정성을 높였다. 이번 업데이트는 대규모 모델의 효율적 후훈련을 가능하게 하며, OpenAI, Meta 등 주요 AI 기업이 추진 중인 초대규모 모델 개발에 필수적인 인프라를 제공한다. NeMo-RL의 문서와 예제 코드를 통해 누구나 고성능 강화학습 훈련을 시작할 수 있다.

Related Links