HyperAIHyperAI

Command Palette

Search for a command to run...

GLaM: Effizientes Skalieren von Sprachmodellen mit Mixture-of-Experts

Zusammenfassung

Die Skalierung von Sprachmodellen durch mehr Daten, Rechenleistung und Parameter hat erhebliche Fortschritte in der natürlichen Sprachverarbeitung ermöglicht. So konnte beispielsweise GPT-3 dank der Skalierung starke Ergebnisse bei Aufgaben des In-Context-Lernens erzielen. Die Trainingsphase solcher großen dichten Modelle erfordert jedoch erhebliche Rechenressourcen. In diesem Paper stellen wir eine Familie von Sprachmodellen namens GLaM (Generalist Language Model) vor, die eine sparsam aktiviertes Mixture-of-Experts-Architektur nutzt, um die Modellkapazität zu erhöhen, gleichzeitig aber deutlich geringere Trainingskosten im Vergleich zu dichten Varianten verursacht. Das größte GLaM-Modell verfügt über 1,2 Billionen Parameter – etwa 7-mal so viele wie GPT-3. Es verbraucht lediglich ein Drittel der Energie, die für das Training von GPT-3 benötigt wurde, und benötigt bei der Inferenz nur die Hälfte der Berechnungsflops, während es dennoch eine bessere Gesamtleistung bei Null-Shot- und One-Shot-Aufgaben über 29 NLP-Aufgaben erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp