Drei Dinge, die jeder über Vision Transformers wissen sollte

Nach ihrem initialen Erfolg in der Verarbeitung natürlicher Sprache haben Transformer-Architekturen rasch an Bedeutung in der Computer Vision gewonnen und liefern derzeit state-of-the-art Ergebnisse für Aufgaben wie Bildklassifizierung, Objektdetektion, Segmentierung und Videobearbeitung. Wir präsentieren drei Erkenntnisse basierend auf einfach umzusetzenden und leicht anwendbaren Varianten von Vision Transformers. (1) Die Residual-Schichten von Vision Transformers, die üblicherweise sequenziell verarbeitet werden, können teilweise effizient parallel verarbeitet werden, ohne die Genauigkeit signifikant zu beeinträchtigen. (2) Es genügt, die Gewichte der Aufmerksamkeits-Schichten feinabzustimmen, um Vision Transformers an eine höhere Auflösung sowie an andere Klassifizierungsaufgaben anzupassen. Dies spart Rechenleistung, reduziert den Spitzenmemoryverbrauch während des Feinabstimmens und ermöglicht die gemeinsame Nutzung des Großteils der Gewichte über verschiedene Aufgaben hinweg. (3) Die Hinzufügung von MLP-basierten Patch-Vorverarbeitungsschichten verbessert das Bert-ähnliche selbstüberwachte Lernen, das auf Patch-Masking basiert. Wir bewerten die Auswirkungen dieser Designentscheidungen anhand des ImageNet-1k-Datensatzes und bestätigen unsere Ergebnisse anhand der ImageNet-v2-Testmenge. Die Transferleistung wird an sechs kleineren Datensätzen gemessen.