HyperAIHyperAI

Command Palette

Search for a command to run...

GLM: Allgemeine Sprachmodellvortraining mit autoregressivem Blank-Infilling

Zhengxiao Du Yujie Qian Xiao Liu Ming Ding Jiezhong Qiu Zhilin Yang Jie Tang

Zusammenfassung

Es gibt verschiedene Arten von Pretraining-Architekturen, darunter Autoencoding-Modelle (z. B. BERT), autoregressive Modelle (z. B. GPT) sowie Encoder-Decoder-Modelle (z. B. T5). Dennoch erzielt keiner der Pretraining-Frameworks die bestmögliche Leistung für alle Aufgaben der drei Hauptkategorien: Natural Language Understanding (NLU), bedingungslose Generierung und bedingte Generierung. Wir schlagen ein General Language Model (GLM) vor, das auf autoregressivem Lückenfüllen basiert, um diese Herausforderung zu bewältigen. GLM verbessert das Lückenfüll-Pretraining durch die Einführung von 2D-Positionseinkodierungen und die Möglichkeit, Spans in beliebiger Reihenfolge vorherzusagen, was zu Leistungssteigerungen gegenüber BERT und T5 bei NLU-Aufgaben führt. Gleichzeitig kann GLM für verschiedene Aufgabentypen durch Variation der Anzahl und Länge der Lücken vortrainiert werden. Auf einer breiten Palette von Aufgaben im Bereich NLU, bedingter und bedingungsloser Generierung übertrifft GLM bei gleichem Modellgröße und Datensatz BERT, T5 und GPT und erreicht mit einem einzigen vortrainierten Modell, das 1,25-mal so viele Parameter wie BERT Large besitzt, die beste Gesamtleistung – was seine Generalisierbarkeit auf unterschiedliche Downstream-Aufgaben belegt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp