HyperAIHyperAI

Command Palette

Search for a command to run...

Die Enthüllung der Dunklen Geheimnisse des Maskierten Bildmodellierens

Zhenda Xie∗13 Zigang Geng∗23 Jingcheng Hu13 Zheng Zhang3 Han Hu3 Yue Cao3†

Zusammenfassung

Das Maskierte Bildmodellierung (MIM) als Vortraining hat sich für zahlreiche nachgelagerte Visionssaufgaben als effektiv erwiesen, jedoch bleiben die Mechanismen und Bereiche, in denen MIM wirkt, unklar. In dieser Arbeit vergleichen wir MIM mit den seit langem vorherrschenden überwachten Vortrainingsmodellen unter zwei Aspekten: Visualisierungen und Experimente, um ihre wesentlichen repräsentativen Unterschiede aufzudecken. Durch die Visualisierungen stellen wir fest, dass MIM eine Lokalitätsinduktionsverzerrung in alle Schichten der trainierten Modelle einbringt, während überwachte Modelle tendenziell lokal in den tieferen Schichten und globaler in den höheren Schichten fokussieren. Dies könnte der Grund sein, warum MIM Visionstransformer mit einem sehr großen Rezeptionsfeld optimiert. Bei Verwendung von MIM kann das Modell eine große Vielfalt an Aufmerksamkeitsköpfen in allen Schichten beibehalten. Für überwachte Modelle verschwindet die Vielfalt an Aufmerksamkeitsköpfen jedoch fast vollständig in den letzten drei Schichten, wobei geringere Vielfalt die Feinabstimmungsleistung beeinträchtigt. Aus den Experimenten geht hervor, dass MIM-Modelle bei geometrischen und Bewegungsaufgaben mit schwachen Semantiken oder feinkörnigen Klassifizierungsaufgaben erheblich bessere Ergebnisse erzielen als ihre überwachten Gegenstücke. Ohne zusätzliche Verbesserungen konnte ein standardmäßig vortrainiertes SwinV2-L-Modell erstklassige Leistungen bei Pose-Schätzung (78,9 AP auf COCO test-dev und 78,0 AP auf CrowdPose), Tiefenschätzung (0,287 RMSE auf NYUv2 und 1,966 RMSE auf KITTI) sowie Videoobjektnachverfolgung (70,7 SUC auf LaSOT) erzielen. Für Datensätze zur semantischen Verständnisanalyse, bei denen die Kategorien durch das überwachte Vortraining ausreichend abgedeckt sind, können MIM-Modelle immer noch hochwettbewerbsfähige Transferleistungen erzielen. Mit einem tieferen Verständnis von MIM hoffen wir, dass unsere Arbeit neue und fundierte Forschungen in diese Richtung anregt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp