UniLMv2: Pseudo-Masked Language Models für die einheitliche Vortrainings von Sprachmodellen

Wir schlagen vor, ein einheitliches Sprachmodell sowohl für Aufgaben des Autoencoding als auch für teilweise autoregressive Sprachmodellierung mittels eines neuartigen Trainingsverfahrens vorzutrainieren, das als sogenanntes Pseudo-Masked Language Model (PMLM) bezeichnet wird. Gegeben ein Eingabetext mit maskierten Tokens nutzen wir herkömmliche Masken, um über das Autoencoding die Wechselwirkungen zwischen beschädigten Tokens und deren Kontext zu lernen, während wir sogenannte Pseudo-Masken einsetzen, um die Innerbeziehungen innerhalb maskierter Abschnitte mittels teilweise autoregressiver Modellierung zu erfassen. Durch eine sorgfältig gestaltete Positionsembedding und Selbst-Attention-Masken werden die Kontextcodierungen wiederverwendet, um redundante Berechnungen zu vermeiden. Zudem liefern die herkömmlichen Masken für das Autoencoding globale Maskeninformationen, sodass alle Positionsembeddings auch bei der teilweise autoregressiven Sprachmodellierung zugänglich sind. Darüber hinaus trainieren die beiden Aufgaben das einheitliche Sprachmodell jeweils als bidirektionalen Encoder und als Sequenz-zu-Sequenz-Decoder. Unsere Experimente zeigen, dass die durch PMLM vortrainierten einheitlichen Sprachmodelle auf einer Vielzahl von Aufgaben im Bereich natürlicher Sprachverstehen und -generierung an mehreren etablierten Benchmarks neue SOTA-Ergebnisse erzielen.