GLaM: Effizientes Skalieren von Sprachmodellen mit Mixture-of-Experts

Die Skalierung von Sprachmodellen durch mehr Daten, Rechenleistung und Parameter hat erhebliche Fortschritte in der natürlichen Sprachverarbeitung ermöglicht. So konnte beispielsweise GPT-3 dank der Skalierung starke Ergebnisse bei Aufgaben des In-Context-Lernens erzielen. Die Trainingsphase solcher großen dichten Modelle erfordert jedoch erhebliche Rechenressourcen. In diesem Paper stellen wir eine Familie von Sprachmodellen namens GLaM (Generalist Language Model) vor, die eine sparsam aktiviertes Mixture-of-Experts-Architektur nutzt, um die Modellkapazität zu erhöhen, gleichzeitig aber deutlich geringere Trainingskosten im Vergleich zu dichten Varianten verursacht. Das größte GLaM-Modell verfügt über 1,2 Billionen Parameter – etwa 7-mal so viele wie GPT-3. Es verbraucht lediglich ein Drittel der Energie, die für das Training von GPT-3 benötigt wurde, und benötigt bei der Inferenz nur die Hälfte der Berechnungsflops, während es dennoch eine bessere Gesamtleistung bei Null-Shot- und One-Shot-Aufgaben über 29 NLP-Aufgaben erzielt.