OPT: Offene vortrainierte Transformer-Sprachmodelle

Große Sprachmodelle, die oft für Hunderttausende von Rechentagen trainiert werden, haben erstaunliche Fähigkeiten im Bereich des Zero- und Few-Shot-Learnings gezeigt. Aufgrund ihrer hohen Rechenkosten sind diese Modelle ohne erhebliches Kapital schwierig zu replizieren. Für die wenigen Modelle, die über APIs verfügbar sind, wird kein Zugriff auf die vollständigen Modellgewichte gewährt, was ihre Untersuchung erschwert. Wir stellen Open Pre-trained Transformers (OPT) vor, eine Suite von dekodierenden vortrainierten Transformatoren mit einer Parameteranzahl von 125 Mio. bis 175 Mrd., die wir an interessierte Forscher vollständig und verantwortungsvoll freigeben möchten. Wir zeigen, dass OPT-175B den Leistungen von GPT-3 entspricht, während der Kohlenstofffußabdruck für seine Entwicklung nur ein Siebtel dessen beträgt. Zudem veröffentlichen wir unser Logbuch, das die Infrastrukturherausforderungen dokumentiert, denen wir gegenüberstanden, sowie Code zur Experimentierung mit allen freigegebenen Modellen.