vor 2 Monaten

OPT: Offene vortrainierte Transformer-Sprachmodelle

Susan Zhang; Stephen Roller; Naman Goyal; Mikel Artetxe; Moya Chen; Shuohui Chen; Christopher Dewan; Mona Diab; Xian Li; Xi Victoria Lin; Todor Mihaylov; Myle Ott; Sam Shleifer; Kurt Shuster; Daniel Simig; Punit Singh Koura; Anjali Sridhar; Tianlu Wang; Luke Zettlemoyer

Details der Forschungsarbeit anzeigen

OPT: Offene vortrainierte Transformer-Sprachmodelle

Abstract

Große Sprachmodelle, die oft für Hunderttausende von Rechentagen trainiert werden, haben erstaunliche Fähigkeiten im Bereich des Zero- und Few-Shot-Learnings gezeigt. Aufgrund ihrer hohen Rechenkosten sind diese Modelle ohne erhebliches Kapital schwierig zu replizieren. Für die wenigen Modelle, die über APIs verfügbar sind, wird kein Zugriff auf die vollständigen Modellgewichte gewährt, was ihre Untersuchung erschwert. Wir stellen Open Pre-trained Transformers (OPT) vor, eine Suite von dekodierenden vortrainierten Transformatoren mit einer Parameteranzahl von 125 Mio. bis 175 Mrd., die wir an interessierte Forscher vollständig und verantwortungsvoll freigeben möchten. Wir zeigen, dass OPT-175B den Leistungen von GPT-3 entspricht, während der Kohlenstofffußabdruck für seine Entwicklung nur ein Siebtel dessen beträgt. Zudem veröffentlichen wir unser Logbuch, das die Infrastrukturherausforderungen dokumentiert, denen wir gegenüberstanden, sowie Code zur Experimentierung mit allen freigegebenen Modellen.