Eine empirische Studie zur Schulung von selbstüberwachten Vision-Transformern

Diese Arbeit beschreibt keine neuartige Methode. Stattdessen untersucht sie einen einfachen, inkrementellen, jedoch unerlässlichen Baseline im Kontext der jüngsten Fortschritte in der Computer Vision: selbstüberwachtes Lernen für Vision Transformers (ViT). Während die Trainingsrezepte für herkömmliche konvolutionale Netzwerke bereits äußerst reif und robust sind, fehlen diese für ViT noch weitgehend, insbesondere in selbstüberwachten Szenarien, in denen das Training deutlich herausfordernder wird. In dieser Arbeit kehren wir zu den Grundlagen zurück und untersuchen die Wirkung mehrerer grundlegender Komponenten beim Training selbstüberwachter ViT. Wir stellen fest, dass Instabilität ein zentrales Problem darstellt, das die Genauigkeit beeinträchtigt und sich durch scheinbar gute Ergebnisse verbergen kann. Wir zeigen auf, dass diese Ergebnisse tatsächlich teilweise gescheitert sind und sich verbessern lassen, wenn das Training stabiler gestaltet wird. Wir benchmarken ViT-Ergebnisse in MoCo v3 sowie in mehreren anderen selbstüberwachten Frameworks, wobei wir verschiedene Ablationsstudien durchführen. Wir diskutieren aktuelle positive Hinweise ebenso wie bestehende Herausforderungen und offene Fragen. Wir hoffen, dass diese Arbeit zukünftigen Forschungsarbeiten nützliche Datenpunkte und wertvolle Erfahrungen liefern wird.