10일 전

라마-네모트론: 효율적인 추론 모델

Akhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, et al
라마-네모트론: 효율적인 추론 모델
초록

우리는 라마-네모트론(Llama-Nemotron) 시리즈 모델을 소개합니다. 이는 우수한 추론 능력과 뛰어난 추론 효율성, 기업용으로의 개방형 라이선스를 제공하는 비균질 추론 모델의 오픈 가족입니다. 이 모델 패밀리는 나노(8B), 슈퍼(49B), 울트라(253B) 세 가지 크기로 구성되며, 딥시크-R1(DeepSeek-R1)과 같은 최첨단 추론 모델과 경쟁 가능한 성능을 보이면서도 더 뛰어난 추론 처리량과 메모리 효율성을 제공합니다. 본 보고서에서는 이러한 모델의 훈련 절차에 대해 설명합니다. 이 과정은 라마3(Llama 3) 모델을 기반으로 신경망 아키텍처 탐색(Neural Architecture Search)을 수행하여 추론 속도를 가속화하고, 지식 전달(Knowledge Distillation) 및 지속적 사전 훈련(Continued Pretraining)을 수행한 후, 추론 중심의 후속 훈련 단계를 거칩니다. 이 후속 훈련 단계는 두 가지 주요 구성 요소로 이루어집니다: 감독적 미세조정(Supervised Fine-Tuning)과 대규모 강화학습(RLHF, Reinforcement Learning with Human Feedback). 라마-네모트론 모델은 추론 중에 표준 채팅 모드와 추론 모드 사이를 동적으로 전환할 수 있는 기능을 지원하는 최초의 오픈소스 모델입니다. 오픈 연구를 더욱 지원하고 모델 개발을 촉진하기 위해 아래 자료를 공개합니다: 1. 라마-네모트론 추론 모델(LN-Nano, LN-Super, LN-Ultra)을 상업적으로 유연한 NVIDIA Open Model License Agreement 하에 공개합니다. 2. 완전한 후속 훈련 데이터셋인 Llama-Nemotron-Post-Training-Dataset을 공개합니다. 3. 훈련 코드베이스인 NeMo, NeMo-Aligner, Megatron-LM도 함께 공개합니다.