HyperAIHyperAI
vor 18 Tagen

Ein Bild ist wert 16x16 Wörter: Transformers für die Bilderkennung im großen Maßstab

Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby
Ein Bild ist wert 16x16 Wörter: Transformers für die Bilderkennung im großen Maßstab
Abstract

Während die Transformer-Architektur zum de-facto-Standard für Aufgaben im Bereich der natürlichen Sprachverarbeitung geworden ist, bleiben ihre Anwendungen im Bereich des maschinellen Sehens bisher begrenzt. In der Bildverarbeitung wird Aufmerksamkeit entweder in Kombination mit konvolutionellen Netzwerken eingesetzt oder verwendet, um bestimmte Komponenten konvolutioneller Netzwerke zu ersetzen, während deren Gesamtstruktur beibehalten wird. Wir zeigen, dass diese Abhängigkeit von CNNs nicht notwendig ist und dass ein reiner Transformer, der direkt auf Folgen von Bildpatches angewendet wird, bei Bildklassifizierungsaufgaben hervorragende Ergebnisse erzielen kann. Bei Vortrainierung auf großen Datensätzen und Übertragung auf mehrere mittelgroße oder kleine Benchmarks für Bilderkennung (ImageNet, CIFAR-100, VTAB usw.) erreicht der Vision Transformer (ViT) im Vergleich zu aktuellen state-of-the-art konvolutionellen Netzwerken hervorragende Leistungen, wobei er erheblich weniger rechnerische Ressourcen für das Training benötigt.