HyperAIHyperAI
il y a 2 mois

GLM-130B : Un modèle pré-entraîné bilingue ouvert

Aohan Zeng; Xiao Liu; Zhengxiao Du; Zihan Wang; Hanyu Lai; Ming Ding; Zhuoyi Yang; Yifan Xu; Wendi Zheng; Xiao Xia; Weng Lam Tam; Zixuan Ma; Yufei Xue; Jidong Zhai; Wenguang Chen; Peng Zhang; Yuxiao Dong; Jie Tang
GLM-130B : Un modèle pré-entraîné bilingue ouvert
Résumé

Nous présentons GLM-130B, un modèle de langage pré-entraîné bilingue (anglais et chinois) doté de 130 milliards de paramètres. Il s'agit d'une tentative d'open-source d'un modèle à l'échelle du cent milliard au moins aussi performant que GPT-3 (davinci) et de révéler comment des modèles d'une telle envergure peuvent être pré-entraînés avec succès. Au cours de cette démarche, nous avons été confrontés à de nombreux défis techniques et d'ingénierie inattendus, notamment en ce qui concerne les pics de perte et la divergence. Dans cet article, nous décrivons le processus d'entraînement de GLM-130B, y compris ses choix de conception, ses stratégies d'entraînement pour l'efficacité et la stabilité, ainsi que nos efforts d'ingénierie. Le modèle GLM-130B résultant offre une performance significativement supérieure à celle de GPT-3 175B (davinci) sur une large gamme de benchmarks anglais populaires, tandis que cet avantage n'est pas observé dans OPT-175B et BLOOM-176B. Il dépasse également constamment et significativement ERNIE TITAN 3.0 260B -- le plus grand modèle de langue chinoise -- sur les benchmarks connexes. Enfin, nous exploitons une propriété unique d'évolutivité de GLM-130B pour atteindre une quantification INT4 sans entraînement postérieur, avec presque aucune perte de performance, ce qui en fait le premier parmi les modèles à l'échelle du cent milliard et permet son inférence efficace sur des GPU RTX 3090 (24G) en quadruple configuration ou des GPU RTX 2080 Ti (11G) en octuple configuration, les GPU les plus abordables nécessaires pour utiliser des modèles à l'échelle du cent milliard. Les poids du modèle GLM-130B sont librement accessibles au public et son code source, ses journaux d'entraînement, ses outils associés et les enseignements tirés sont open-source à l'adresse \url{https://github.com/THUDM/GLM-130B/}.