Verbesserung der selbstüberwachten Vortrainierung durch einen vollständig ausgeschöpften maskierten Sprachmodell

Das Masked Language Model (MLM)-Framework wird weitgehend für selbstüberwachtes Sprachvortraining eingesetzt. In diesem Artikel argumentieren wir, dass zufällig ausgewählte Maskierungen im MLM zu einer unerwünscht hohen Gradientenvarianz führen können. Um diese Varianz theoretisch zu quantifizieren, korrelieren wir die Gradientenkovarianz mit der Hamming-Distanz zwischen zwei verschiedenen Maskierungen (gegeben eine bestimmte Textsequenz). Um die durch die Maskierungssampling-Strategie verursachte Varianz zu reduzieren, schlagen wir eine vollständig ausgeschöpfte Maskierungsstrategie vor, bei der eine Textsequenz in eine bestimmte Anzahl nicht überlappender Segmente unterteilt wird. Anschließend werden die Tokens innerhalb eines solchen Segments maskiert, um das Modell zu trainieren. Theoretisch beweisen wir, dass die aus dieser neuen Maskierungsstrategie resultierenden Gradienten eine geringere Varianz aufweisen und somit ein effizienteres selbstüberwachtes Training ermöglichen. Wir führen umfangreiche Experimente sowohl im Kontinuierlichen Vortraining als auch im allgemeinen Vortraining von Grund auf durch. Die empirischen Ergebnisse bestätigen, dass die neue Maskierungsstrategie konsistent die Standardstrategie mit zufälliger Maskierung übertrifft. Eine detaillierte Effizienzanalyse sowie Ablationsstudien stützen zudem die Vorteile unserer vollständig ausgeschöpften Maskierungsstrategie innerhalb des MLM-Frameworks.