vor 2 Monaten

GPT-NeoX-20B: Ein Open-Source-Autoregressives Sprachmodell

Sid Black; Stella Biderman; Eric Hallahan; Quentin Anthony; Leo Gao; Laurence Golding; Horace He; Connor Leahy; Kyle McDonell; Jason Phang; Michael Pieler; USVSN Sai Prashanth; Shivanshu Purohit; Laria Reynolds; Jonathan Tow; Ben Wang; Samuel Weinbach

Details der Forschungsarbeit anzeigen

GPT-NeoX-20B: Ein Open-Source-Autoregressives Sprachmodell

Abstract

Wir stellen GPT-NeoX-20B vor, ein autoregressives Sprachmodell mit 20 Milliarden Parametern, das auf dem Pile trainiert wurde. Die Gewichte des Modells werden durch eine permissive Lizenz frei und offen der Öffentlichkeit zur Verfügung gestellt. Nach unserem Wissen ist es zum Zeitpunkt der Abgabe das größte dicht autoregressive Modell mit öffentlich zugänglichen Gewichten. In dieser Arbeit beschreiben wir die Architektur und das Training von \model{} sowie deren Leistung bei einer Reihe von sprachlichen Verständnis-, mathematischen und wissensbasierten Aufgaben. Wir stellen fest, dass GPT-NeoX-20B insbesondere als Few-Shot-Reasoner sehr leistungsfähig ist und bei Five-Shot-Evaluierung deutlich stärker an Leistung gewinnt als vergleichbare GPT-3- und FairSeq-Modelle. Wir veröffentlichen den Quellcode für das Training und die Evaluierung sowie die Modellgewichte unter https://github.com/EleutherAI/gpt-neox.