Emergenz von Eigenschaften in selbstüberwachten Visionstransformern

In dieser Arbeit stellen wir die Frage, ob selbstüberwachtes Lernen neue Eigenschaften für den Vision Transformer (ViT) bereitstellt, die im Vergleich zu Faltungsnetzen (ConvNets) hervorstechen. Neben der Tatsache, dass die Anpassung von selbstüberwachten Methoden an diese Architektur besonders gut funktioniert, machen wir folgende Beobachtungen: Erstens enthalten selbstüberwachte ViT-Features explizite Informationen über die semantische Segmentierung eines Bildes, was bei überwachten ViTs und ConvNets nicht so klar zutage tritt. Zweitens sind diese Features auch ausgezeichnete k-NN-Klassifizierer und erreichen mit einem kleinen ViT 78,3 % Top-1 auf ImageNet. Unsere Studie unterstreicht außerdem die Bedeutung des Impulsencoders, der Multi-Crop-Ausbildung und der Verwendung kleiner Patchs bei ViTs. Wir implementieren unsere Erkenntnisse in eine einfache selbstüberwachte Methode, die wir DINO nennen und als Form des Selbstverfeinerungslernens ohne Labels interpretieren. Wir zeigen die Synergie zwischen DINO und ViTs durch das Erreichen von 80,1 % Top-1 auf ImageNet in der linearen Auswertung mit dem ViT-Base-Modell.