vor 17 Tagen

ELECTRA: Vortrainierte Text-Encoder als Diskriminatoren statt Generatoren

Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning

Abstract

Maskierte Sprachmodellierung (Masked Language Modeling, MLM) basierende Vortrainingsmethoden wie BERT verfälschen die Eingabe, indem einige Tokens durch [MASK] ersetzt werden, und trainieren anschließend ein Modell, um die ursprünglichen Tokens wiederherzustellen. Obwohl diese Ansätze bei der Übertragung auf nachgeschaltete NLP-Aufgaben gute Ergebnisse liefern, erfordern sie im Allgemeinen große Rechenressourcen, um wirksam zu sein. Als Alternative schlagen wir eine sample-effizientere Vortrainingsaufgabe vor, die wir Ersetzter-Token-Erkennung (Replaced Token Detection) nennen. Im Gegensatz zum Maskieren der Eingabe verfälscht unsere Methode die Eingabe, indem einige Tokens durch plausibel erscheinende Alternativen ersetzt werden, die aus einem kleinen Generator-Netzwerk stammen. Anstatt ein Modell zu trainieren, das die ursprünglichen Identitäten der verfälschten Tokens vorhersagt, trainieren wir ein diskriminatives Modell, das entscheidet, ob jeder Token in der verfälschten Eingabe durch einen Generator-Beispiel ersetzt wurde oder nicht. Ausführliche Experimente zeigen, dass diese neue Vortrainingsaufgabe effizienter ist als MLM, da die Aufgabe über alle Eingabetokens definiert ist und nicht nur über die kleine Teilmenge, die maskiert wurde. Dadurch erlernen die kontextuellen Repräsentationen unserer Methode, bei gleichem Modellgröße, Datenmenge und Rechenressourcen, erheblich bessere Leistung als die von BERT. Die Verbesserungen sind besonders ausgeprägt bei kleinen Modellen: So erreicht ein Modell, das auf einer einzigen GPU über vier Tage trainiert wurde, eine bessere Leistung als GPT (das mit 30-mal mehr Rechenleistung trainiert wurde) auf dem GLUE-Benchmark für natürliche Sprachverstehen. Unser Ansatz funktioniert auch bei großer Skalierung gut und erzielt vergleichbare Ergebnisse wie RoBERTa und XLNet, wobei weniger als ein Viertel der benötigten Rechenressourcen eingesetzt werden. Bei gleichem Rechenaufwand übertrifft er beide Modelle sogar.