HyperAIHyperAI

Command Palette

Search for a command to run...

OPT: Offene vortrainierte Transformer-Sprachmodelle

Zusammenfassung

Große Sprachmodelle, die oft für Hunderttausende von Rechentagen trainiert werden, haben erstaunliche Fähigkeiten im Bereich des Zero- und Few-Shot-Learnings gezeigt. Aufgrund ihrer hohen Rechenkosten sind diese Modelle ohne erhebliches Kapital schwierig zu replizieren. Für die wenigen Modelle, die über APIs verfügbar sind, wird kein Zugriff auf die vollständigen Modellgewichte gewährt, was ihre Untersuchung erschwert. Wir stellen Open Pre-trained Transformers (OPT) vor, eine Suite von dekodierenden vortrainierten Transformatoren mit einer Parameteranzahl von 125 Mio. bis 175 Mrd., die wir an interessierte Forscher vollständig und verantwortungsvoll freigeben möchten. Wir zeigen, dass OPT-175B den Leistungen von GPT-3 entspricht, während der Kohlenstofffußabdruck für seine Entwicklung nur ein Siebtel dessen beträgt. Zudem veröffentlichen wir unser Logbuch, das die Infrastrukturherausforderungen dokumentiert, denen wir gegenüberstanden, sowie Code zur Experimentierung mit allen freigegebenen Modellen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
OPT: Offene vortrainierte Transformer-Sprachmodelle | Paper | HyperAI