HyperAIHyperAI
vor 9 Tagen

GLM: Allgemeine Sprachmodellvortraining mit autoregressivem Blank-Infilling

Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, Jie Tang
GLM: Allgemeine Sprachmodellvortraining mit autoregressivem Blank-Infilling
Abstract

Es gibt verschiedene Arten von Pretraining-Architekturen, darunter Autoencoding-Modelle (z. B. BERT), autoregressive Modelle (z. B. GPT) sowie Encoder-Decoder-Modelle (z. B. T5). Dennoch erzielt keiner der Pretraining-Frameworks die bestmögliche Leistung für alle Aufgaben der drei Hauptkategorien: Natural Language Understanding (NLU), bedingungslose Generierung und bedingte Generierung. Wir schlagen ein General Language Model (GLM) vor, das auf autoregressivem Lückenfüllen basiert, um diese Herausforderung zu bewältigen. GLM verbessert das Lückenfüll-Pretraining durch die Einführung von 2D-Positionseinkodierungen und die Möglichkeit, Spans in beliebiger Reihenfolge vorherzusagen, was zu Leistungssteigerungen gegenüber BERT und T5 bei NLU-Aufgaben führt. Gleichzeitig kann GLM für verschiedene Aufgabentypen durch Variation der Anzahl und Länge der Lücken vortrainiert werden. Auf einer breiten Palette von Aufgaben im Bereich NLU, bedingter und bedingungsloser Generierung übertrifft GLM bei gleichem Modellgröße und Datensatz BERT, T5 und GPT und erreicht mit einem einzigen vortrainierten Modell, das 1,25-mal so viele Parameter wie BERT Large besitzt, die beste Gesamtleistung – was seine Generalisierbarkeit auf unterschiedliche Downstream-Aufgaben belegt.