ColorMAE: Untersuchung datenunabhängiger Maskierungsstrategien in Masked Autoencoders

Maskierte Autoencoder (MAE) sind zu einem robusten, selbstüberwachten Rahmenwerk geworden und zeigen bemerkenswerte Leistung über eine breite Palette von nachgeschalteten Aufgaben hinweg. Um die Schwierigkeit der Vorabaufgabe zu erhöhen und reichhaltigere visuelle Darstellungen zu lernen, haben bestehende Arbeiten den herkömmlichen zufälligen Maskierungansatz durch anspruchsvollere Strategien wie adversarially geführte oder Lehrer-geleitete Maskierung ersetzt. Diese Ansätze hängen jedoch häufig von den Eingabedaten ab, was die Modellkomplexität erhöht und zusätzliche Berechnungen zur Generierung der Maskenmuster erfordert. Dies wirft die Frage auf: Können wir die Leistung von MAE über die zufällige Maskierung hinaus verbessern, ohne auf die Eingabedaten zurückzugreifen oder zusätzlichen Rechenaufwand in Kauf zu nehmen? In dieser Arbeit stellen wir eine einfache, aber effektive, datenunabhängige Methode vor, die als ColorMAE bezeichnet wird und verschiedene binäre Maskenmuster durch Filterung von Zufallsrauschen generiert. Inspiriert durch Farbrauschen in der Bildverarbeitung untersuchen wir vier Arten von Filtern, um Maskenmuster mit unterschiedlichen räumlichen und semantischen Vorkenntnissen zu erzeugen. ColorMAE erfordert weder zusätzliche lernbare Parameter noch erhöhten Rechenaufwand im Netzwerk, steigert jedoch die Qualität der gelernten Darstellungen signifikant. Wir führen eine umfassende empirische Evaluation durch und belegen, dass unsere Strategie im Vergleich zur zufälligen Maskierung bei nachgeschalteten Aufgaben überlegen ist. Insbesondere erreichen wir eine Verbesserung von 2,72 in der mIoU bei semantischen Segmentierungsaufgaben im Vergleich zu Standard-MAE-Implementierungen.