9일 전

GLaM: Mixture-of-Experts를 활용한 언어 모델의 효율적 스케일링

Nan Du, Yanping Huang, Andrew M. Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, Barret Zoph, Liam Fedus, Maarten Bosma, Zongwei Zhou, Tao Wang, Yu Emma Wang, Kellie Webster, Marie Pellat, Kevin Robinson, Kathleen Meier-Hellstern, Toju Duke, Lucas Dixon, Kun Zhang, Quoc V Le, Yonghui Wu, Zhifeng Chen, Claire Cui
GLaM: Mixture-of-Experts를 활용한 언어 모델의 효율적 스케일링
초록

데이터, 계산 자원, 파라미터 수를 늘려 언어 모델을 확장하는 것은 자연어 처리 분야에서 큰 진전을 이끌어냈다. 예를 들어, 확장 기법 덕분에 GPT-3는 컨텍스트 내 학습(in-context learning) 과제에서 뛰어난 성과를 달성할 수 있었다. 그러나 이러한 대규모 밀집 모델( dense models)을 훈련하기 위해서는 막대한 계산 자원이 필요하다. 본 논문에서는 계산 자원 소모를 크게 줄이면서도 모델 용량을 확장할 수 있는 희소 활성화(sparse activation) 기반의 전문가 집합 모델(Mixture-of-Experts, MoE) 아키텍처를 활용한 언어 모델인 GLaM(Genralist Language Model)을 제안하고 개발하였다. 가장 큰 크기의 GLaM은 1.2조 개의 파라미터를 가지며, 이는 GPT-3보다 약 7배 더 큰 규모이다. 하지만 GPT-3를 훈련하는 데 사용된 에너지의 약 1/3만 소비하며, 추론 시에는 계산 플롭스(FLOPs)가 절반 수준으로 줄어들었으며, 29개의 자연어 처리(NLP) 과제에서 더 우수한 제로샷(zero-shot) 및 원샷(one-shot) 성능을 달성하였다.

GLaM: Mixture-of-Experts를 활용한 언어 모델의 효율적 스케일링 | 최신 연구 논문 | HyperAI초신경