9일 전

DeepSpeed 및 Megatron을 활용한 메가트론-터닝 NLG 530B 대규모 생성형 언어 모델 훈련

Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong He, Michael Houston, Saurabh Tiwary, Bryan Catanzaro
DeepSpeed 및 Megatron을 활용한 메가트론-터닝 NLG 530B 대규모 생성형 언어 모델 훈련
초록

사전 훈련된 일반 목적의 언어 모델은 제로샷, 팔십샷, 그리고 미세 조정(fine-tuning) 기법을 통해 다운스트림 작업에 적응함으로써 다양한 자연어 처리(NLP) 분야에서 최고 수준의 정확도를 달성할 수 있다. 이러한 모델들의 성공에 힘입어, 모델의 규모는 급속도로 증가하였으며, 대규모 모델을 훈련시키기 위해서는 고성능 하드웨어, 소프트웨어, 알고리즘 기술이 필수적으로 요구된다. 마이크로소프트와 네이버의 공동 노력의 결과로, 본 연구에서는 파라미터 수가 5300억 개에 달하는 가장 큰 단일 구조(transformer 기반) 언어 모델인 메가트론-터닝 NLP 530B(Megatron-Turing NLG 530B, MT-NLG)의 훈련 과정에 대해 자세히 설명한다. 본 논문에서는 먼저 DeepSpeed와 Megatron을 활용하여 이 모델을 훈련하는 데 사용된 인프라 및 3차원 병렬 처리(3D parallelism) 기법에 초점을 맞춘다. 다음으로, 훈련 과정, 훈련 코퍼스 설계, 데이터 정제 기법에 대해 상세히 설명하며, 이러한 요소들이 모델 성공의 핵심 요소라고 판단한다. 마지막으로, 다양한 평가 결과와 MT-NLG가 보여주는 여러 흥미로운 관찰 사항 및 새로운 특성에 대해 논의한다. 우리는 MT-NLG가 여러 NLP 벤치마크에서 제로샷, 원샷, 소량 샘플 학습에서 뛰어난 정확도를 달성하며, 새로운 최고 성능 기록을 수립함을 입증한다. 본 연구의 기여가 대규모 훈련 인프라, 대규모 언어 모델, 자연어 생성 기술의 발전을 더욱 촉진할 것으로 기대한다.

DeepSpeed 및 Megatron을 활용한 메가트론-터닝 NLG 530B 대규모 생성형 언어 모델 훈련 | 최신 연구 논문 | HyperAI초신경