GLM-130B: 오픈 바이링구얼 사전 학습 모델

우리는 1300억 개의 매개변수를 가진 양자 언어(영어와 중국어) 사전 학습 모델인 GLM-130B를 소개합니다. 이는 GPT-3 (davinci)와 최소한 동등한 성능을 가진 1000억 규모의 모델을 오픈 소스화하고, 이러한 규모의 모델이 어떻게 성공적으로 사전 학습될 수 있는지 밝히기 위한 시도입니다. 이 과정에서 우리는 손실 스파이크(loss spikes)와 발산(divergence) 등 예상치 못한 기술적 및 공학적 난관에 직면했습니다. 본 논문에서는 GLM-130B의 설계 선택, 효율성과 안정성을 위한 학습 전략, 그리고 공학적 노력 등을 포함한 훈련 과정을 소개합니다.결과적으로, GLM-130B 모델은 다양한 인기 있는 영어 벤치마크에서 GPT-3 1750억(davinci)보다 크게 우월한 성능을 보여주며, 이 같은 성능 우위는 OPT-1750억 및 BLOOM-1760억에서는 관찰되지 않았습니다. 또한 관련 벤치마크에서 가장 큰 중국어 언어 모델인 ERNIE TITAN 3.0 2600억에 비해 일관되고 크게 우월한 성능을 보여주었습니다. 마지막으로, 우리는 GLM-130B의 독특한 스케일링 특성을 활용하여 후 학습(post training) 없이 INT4 양자화를 달성하였으며, 거의 성능 저하 없이 이를 실현하였습니다. 이로써 GLM-130B는 1000억 규모의 모델 중 처음으로, 더욱 중요한 점은 4×RTX 3090 (24G) 또는 8×RTX 2080 Ti (11G) GPU와 같은 가장 경제적인 GPU에서도 효과적인 추론이 가능하게 되었습니다.GLM-130B 모델의 가중치는 공개적으로 접근 가능하며, 코드, 훈련 로그, 관련 도구세트 및 배운 교훈들은 \url{https://github.com/THUDM/GLM-130B/}에서 오픈 소스로 제공됩니다.