vor 2 Monaten

Die Enthüllung der Dunklen Geheimnisse des Maskierten Bildmodellierens

Zhenda Xie; Zigang Geng; Jingcheng Hu; Zheng Zhang; Han Hu; Yue Cao

Abstract

Das Maskierte Bildmodellierung (MIM) als Vortraining hat sich für zahlreiche nachgelagerte Visionssaufgaben als effektiv erwiesen, jedoch bleiben die Mechanismen und Bereiche, in denen MIM wirkt, unklar. In dieser Arbeit vergleichen wir MIM mit den seit langem vorherrschenden überwachten Vortrainingsmodellen unter zwei Aspekten: Visualisierungen und Experimente, um ihre wesentlichen repräsentativen Unterschiede aufzudecken. Durch die Visualisierungen stellen wir fest, dass MIM eine Lokalitätsinduktionsverzerrung in alle Schichten der trainierten Modelle einbringt, während überwachte Modelle tendenziell lokal in den tieferen Schichten und globaler in den höheren Schichten fokussieren. Dies könnte der Grund sein, warum MIM Visionstransformer mit einem sehr großen Rezeptionsfeld optimiert. Bei Verwendung von MIM kann das Modell eine große Vielfalt an Aufmerksamkeitsköpfen in allen Schichten beibehalten. Für überwachte Modelle verschwindet die Vielfalt an Aufmerksamkeitsköpfen jedoch fast vollständig in den letzten drei Schichten, wobei geringere Vielfalt die Feinabstimmungsleistung beeinträchtigt. Aus den Experimenten geht hervor, dass MIM-Modelle bei geometrischen und Bewegungsaufgaben mit schwachen Semantiken oder feinkörnigen Klassifizierungsaufgaben erheblich bessere Ergebnisse erzielen als ihre überwachten Gegenstücke. Ohne zusätzliche Verbesserungen konnte ein standardmäßig vortrainiertes SwinV2-L-Modell erstklassige Leistungen bei Pose-Schätzung (78,9 AP auf COCO test-dev und 78,0 AP auf CrowdPose), Tiefenschätzung (0,287 RMSE auf NYUv2 und 1,966 RMSE auf KITTI) sowie Videoobjektnachverfolgung (70,7 SUC auf LaSOT) erzielen. Für Datensätze zur semantischen Verständnisanalyse, bei denen die Kategorien durch das überwachte Vortraining ausreichend abgedeckt sind, können MIM-Modelle immer noch hochwettbewerbsfähige Transferleistungen erzielen. Mit einem tieferen Verständnis von MIM hoffen wir, dass unsere Arbeit neue und fundierte Forschungen in diese Richtung anregt.