vor 9 Tagen

GLaM: Effizientes Skalieren von Sprachmodellen mit Mixture-of-Experts

Nan Du, Yanping Huang, Andrew M. Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, Barret Zoph, Liam Fedus, Maarten Bosma, Zongwei Zhou, Tao Wang, Yu Emma Wang, Kellie Webster, Marie Pellat, Kevin Robinson, Kathleen Meier-Hellstern, Toju Duke, Lucas Dixon, Kun Zhang, Quoc V Le, Yonghui Wu, Zhifeng Chen, Claire Cui

Details der Forschungsarbeit anzeigen

GLaM: Effizientes Skalieren von Sprachmodellen mit Mixture-of-Experts

Abstract

Die Skalierung von Sprachmodellen durch mehr Daten, Rechenleistung und Parameter hat erhebliche Fortschritte in der natürlichen Sprachverarbeitung ermöglicht. So konnte beispielsweise GPT-3 dank der Skalierung starke Ergebnisse bei Aufgaben des In-Context-Lernens erzielen. Die Trainingsphase solcher großen dichten Modelle erfordert jedoch erhebliche Rechenressourcen. In diesem Paper stellen wir eine Familie von Sprachmodellen namens GLaM (Generalist Language Model) vor, die eine sparsam aktiviertes Mixture-of-Experts-Architektur nutzt, um die Modellkapazität zu erhöhen, gleichzeitig aber deutlich geringere Trainingskosten im Vergleich zu dichten Varianten verursacht. Das größte GLaM-Modell verfügt über 1,2 Billionen Parameter – etwa 7-mal so viele wie GPT-3. Es verbraucht lediglich ein Drittel der Energie, die für das Training von GPT-3 benötigt wurde, und benötigt bei der Inferenz nur die Hälfte der Berechnungsflops, während es dennoch eine bessere Gesamtleistung bei Null-Shot- und One-Shot-Aufgaben über 29 NLP-Aufgaben erzielt.