HyperAIHyperAI
vor 2 Monaten

GLM-130B: Ein offenes bilingual vortrainiertes Modell

Aohan Zeng; Xiao Liu; Zhengxiao Du; Zihan Wang; Hanyu Lai; Ming Ding; Zhuoyi Yang; Yifan Xu; Wendi Zheng; Xiao Xia; Weng Lam Tam; Zixuan Ma; Yufei Xue; Jidong Zhai; Wenguang Chen; Peng Zhang; Yuxiao Dong; Jie Tang
GLM-130B: Ein offenes bilingual vortrainiertes Modell
Abstract

Wir stellen GLM-130B vor, ein bilingualer (Englisch und Chinesisch) prägetrainierter Sprachmodell mit 130 Milliarden Parametern. Es handelt sich dabei um einen Versuch, ein Modell im 100-Milliarden-Bereich open source zu machen, das mindestens so gut wie GPT-3 (davinci) ist, und gleichzeitig zu erläutern, wie Modelle dieser Größenordnung erfolgreich prägetrainiert werden können. Im Verlauf dieses Projekts stoßen wir auf zahlreiche unerwartete technische und ingenieurtechnische Herausforderungen, insbesondere im Bereich der Verlustspitzen und Divergenz. In diesem Artikel beschreiben wir den Trainingsprozess von GLM-130B einschließlich seiner Designentscheidungen, Trainingsstrategien zur Effizienz und Stabilität sowie die technischen Anstrengungen. Das resultierende GLM-130B-Modell übertrifft GPT-3 175B (davinci) erheblich in einer Vielzahl beliebter englischer Benchmarks, während kein Leistungsplus bei OPT-175B und BLOOM-176B festgestellt wird. Es übertreffen zudem konsistent und erheblich ERNIE TITAN 3.0 260B – das größte chinesische Sprachmodell – in den entsprechenden Benchmarks. Schließlich nutzen wir eine einzigartige Skalierungseigenschaft von GLM-130B, um eine INT4-Kuantisierung ohne nachfolgende Training zu erreichen, wobei fast keine Leistungseinbuße entsteht. Dies macht es zum ersten Modell in der 100-Milliarden-Bereichsgruppe und ermöglicht wichtigerweise seine effektive Inferenz auf 4$\times$RTX 3090 (24G) oder 8$\times$RTX 2080 Ti (11G) GPUs, den kostengünstigsten GPUs für die Nutzung von Modellen dieser Größenordnung. Die Gewichte des GLM-130B-Modells sind öffentlich zugänglich, und sein Code, Trainingsprotokolle, verwandtes Toolkit sowie die gewonnenen Erkenntnisse sind unter \url{https://github.com/THUDM/GLM-130B/} open source.