GPT-NeoX-20B: Ein Open-Source-Autoregressives Sprachmodell

Wir stellen GPT-NeoX-20B vor, ein autoregressives Sprachmodell mit 20 Milliarden Parametern, das auf dem Pile trainiert wurde. Die Gewichte des Modells werden durch eine permissive Lizenz frei und offen der Öffentlichkeit zur Verfügung gestellt. Nach unserem Wissen ist es zum Zeitpunkt der Abgabe das größte dicht autoregressive Modell mit öffentlich zugänglichen Gewichten. In dieser Arbeit beschreiben wir die Architektur und das Training von \model{} sowie deren Leistung bei einer Reihe von sprachlichen Verständnis-, mathematischen und wissensbasierten Aufgaben. Wir stellen fest, dass GPT-NeoX-20B insbesondere als Few-Shot-Reasoner sehr leistungsfähig ist und bei Five-Shot-Evaluierung deutlich stärker an Leistung gewinnt als vergleichbare GPT-3- und FairSeq-Modelle. Wir veröffentlichen den Quellcode für das Training und die Evaluierung sowie die Modellgewichte unter https://github.com/EleutherAI/gpt-neox.