3달 전
Llama 3이 MoE를 만나다: 효율적인 업사이클링
Aditya Vavre, Ethan He, Dennis Liu, Zijie Yan, June Yang, Nima Tajbakhsh, Ashwath Aithal

초록
대규모 언어 모델(Large Language Models, LLMs)을 확장하면 성능이 크게 향상되지만, 그에 비해 계산 비용이 급격히 증가하는 문제가 있다. 혼합 전문가(Mixture-of-Experts, MoE) 모델은 계산 요구량에 비례하지 않게 모델 용량을 증가시킬 수 있는 효율적인 대안을 제공한다. 그러나 MoE 모델을 처음부터 훈련시키는 것은 과적합(overfitting)과 라우팅 안정성(routing instability) 등의 도전 과제를 수반한다. 본 연구에서는 사전 훈련된 밀집 모델(checkpoint)을 활용하는 효율적인 훈련 전략을 제안한다. 이를 통해 Llama 3-8B 기반의 8개 전문가(Expert)를 갖는 Top-2 MoE 모델을 일반적인 사전 훈련 계산량의 1% 미만으로 훈련시켰다. 제안한 방법은 학술 벤치마크에서 하류 작업 성능을 향상시켜 MMLU에서 0-샷 정확도(0-shot accuracy)에 2%의 개선을 달성하였으며, 프레임워크를 활용한 훈련 중 모델 FLOPs 활용도(Model FLOPs Utilization, MFU)는 46.8%에 도달하였다. 또한, NeMo에 온라인 업사이클링(online upcycling) 기능을 통합하여 사전 훈련된 가중치를 원활하게 활용할 수 있도록 하여, 높은 용량의 MoE 모델 개발을 비용 효율적으로 가능하게 했다.