3달 전

Llama 3이 MoE를 만나다: 효율적인 업사이클링

Aditya Vavre, Ethan He, Dennis Liu, Zijie Yan, June Yang, Nima Tajbakhsh, Ashwath Aithal
Llama 3이 MoE를 만나다: 효율적인 업사이클링
초록

대규모 언어 모델(Large Language Models, LLMs)을 확장하면 성능이 크게 향상되지만, 그에 비해 계산 비용이 급격히 증가하는 문제가 있다. 혼합 전문가(Mixture-of-Experts, MoE) 모델은 계산 요구량에 비례하지 않게 모델 용량을 증가시킬 수 있는 효율적인 대안을 제공한다. 그러나 MoE 모델을 처음부터 훈련시키는 것은 과적합(overfitting)과 라우팅 안정성(routing instability) 등의 도전 과제를 수반한다. 본 연구에서는 사전 훈련된 밀집 모델(checkpoint)을 활용하는 효율적인 훈련 전략을 제안한다. 이를 통해 Llama 3-8B 기반의 8개 전문가(Expert)를 갖는 Top-2 MoE 모델을 일반적인 사전 훈련 계산량의 1% 미만으로 훈련시켰다. 제안한 방법은 학술 벤치마크에서 하류 작업 성능을 향상시켜 MMLU에서 0-샷 정확도(0-shot accuracy)에 2%의 개선을 달성하였으며, 프레임워크를 활용한 훈련 중 모델 FLOPs 활용도(Model FLOPs Utilization, MFU)는 46.8%에 도달하였다. 또한, NeMo에 온라인 업사이클링(online upcycling) 기능을 통합하여 사전 훈련된 가중치를 원활하게 활용할 수 있도록 하여, 높은 용량의 MoE 모델 개발을 비용 효율적으로 가능하게 했다.