PERT: Pre-training von BERT mit permutiertem Sprachmodell

Vorabtrainierte Sprachmodelle (PLMs) werden aufgrund ihrer leistungsfähigen Textrepräsentationen, die auf umfangreichen Korpora trainiert wurden, in verschiedenen Aufgaben der natürlichen Sprachverarbeitung (NLP) weit verbreitet eingesetzt. In dieser Arbeit schlagen wir ein neues PLM namens PERT für das Verständnis natürlicher Sprache (NLU) vor. PERT ist ein Auto-Encoding-Modell (wie BERT), das mit einem Permutierten Sprachmodell (PerLM) trainiert wird. Die Formulierung des vorgeschlagenen PerLM ist einfach. Wir permutieren einen Teil des Eingabetexts, und das Trainingsziel besteht darin, die Position des ursprünglichen Tokens zu vorhersagen. Darüber hinaus wenden wir auch die Maskierung ganzer Wörter und N-Gram-Maskierung an, um die Leistung von PERT zu verbessern. Wir führten umfangreiche Experimente sowohl auf chinesischen als auch auf englischen NLU-Benchmarks durch. Die experimentellen Ergebnisse zeigen, dass PERT bei einigen Aufgaben Verbesserungen gegenüber verschiedenen vergleichbaren Baselines bringt, während dies bei anderen nicht der Fall ist. Diese Ergebnisse deuten darauf hin, dass es möglich ist, vielfältigere Vorabtrainieraufgaben zu entwickeln anstelle von Varianten des maskierten Sprachmodells. Mehrere quantitative Studien wurden durchgeführt, um PERT besser zu verstehen, was möglicherweise hilfreich sein könnte für die zukünftige Entwicklung von PLMs. Ressourcen sind verfügbar: https://github.com/ymcui/PERT