Masking trifft auf Supervision: Eine starke Lernallianz

Die Vortrainierung mit zufällig maskierten Eingaben ist zu einem neuen Trend im selbstüberwachten Lernen geworden. Allerdings steht das überwachte Lernen vor der Herausforderung, Maskierungsaugmentierungen zu integrieren, hauptsächlich aufgrund instabiler Trainingsverläufe. In diesem Artikel stellen wir eine neuartige Methode zur Einbindung von Maskierungsaugmentierungen vor, die wir Masked Sub-branch (MaskSub) nennen. MaskSub besteht aus einem Hauptzweig und einem Unterzweig, wobei der Unterzweig ein Teil des Hauptzweigs ist. Während der Hauptzweig konventionellen Trainingsrezepten folgt, unterliegt der Unterzweig intensiven Maskierungsaugmentierungen während des Trainings. MaskSub adressiert die Herausforderung, indem es negative Effekte durch eine entspannte Verlustfunktion mildert, die einer selbst-Disziplinierungsverlustfunktion ähnelt. Unsere Analyse zeigt, dass MaskSub die Leistung verbessert, wobei der Trainingsverlust schneller konvergiert als bei herkömmlichem Training – was darauf hindeutet, dass unser Ansatz den Trainingsprozess stabilisiert. Wir validieren MaskSub zudem in vielfältigen Trainingszenarien und Modellen, einschließlich DeiT-III-Training, MAE-Feinabstimmung, CLIP-Feinabstimmung, BERT-Training sowie hierarchischer Architekturen (ResNet und Swin Transformer). Unsere Ergebnisse zeigen, dass MaskSub in allen Fällen konsistent beachtliche Leistungssteigerungen erzielt. MaskSub bietet eine praktikable und effektive Lösung zur Einführung zusätzlicher Regularisierung unter verschiedenen Trainingsrezepten. Der Quellcode ist unter https://github.com/naver-ai/augsub verfügbar.