HyperAIHyperAI

Command Palette

Search for a command to run...

Verbesserung der selbstüberwachten Vortrainierung durch einen vollständig ausgeschöpften maskierten Sprachmodell

Mingzhi Zheng Dinghan Shen Yelong Shen Weizhu Chen Lin Xiao

Zusammenfassung

Das Masked Language Model (MLM)-Framework wird weitgehend für selbstüberwachtes Sprachvortraining eingesetzt. In diesem Artikel argumentieren wir, dass zufällig ausgewählte Maskierungen im MLM zu einer unerwünscht hohen Gradientenvarianz führen können. Um diese Varianz theoretisch zu quantifizieren, korrelieren wir die Gradientenkovarianz mit der Hamming-Distanz zwischen zwei verschiedenen Maskierungen (gegeben eine bestimmte Textsequenz). Um die durch die Maskierungssampling-Strategie verursachte Varianz zu reduzieren, schlagen wir eine vollständig ausgeschöpfte Maskierungsstrategie vor, bei der eine Textsequenz in eine bestimmte Anzahl nicht überlappender Segmente unterteilt wird. Anschließend werden die Tokens innerhalb eines solchen Segments maskiert, um das Modell zu trainieren. Theoretisch beweisen wir, dass die aus dieser neuen Maskierungsstrategie resultierenden Gradienten eine geringere Varianz aufweisen und somit ein effizienteres selbstüberwachtes Training ermöglichen. Wir führen umfangreiche Experimente sowohl im Kontinuierlichen Vortraining als auch im allgemeinen Vortraining von Grund auf durch. Die empirischen Ergebnisse bestätigen, dass die neue Maskierungsstrategie konsistent die Standardstrategie mit zufälliger Maskierung übertrifft. Eine detaillierte Effizienzanalyse sowie Ablationsstudien stützen zudem die Vorteile unserer vollständig ausgeschöpften Maskierungsstrategie innerhalb des MLM-Frameworks.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp