AutoFormer: Suchen von Transformers für die visuelle Erkennung

Kürzlich haben rein auf Transformers basierende Modelle großes Potenzial für visuelle Aufgaben wie Bildklassifikation und Objektdetektion gezeigt. Die Gestaltung von Transformer-Netzwerken ist jedoch herausfordernd. Es wurde beobachtet, dass Tiefe, Embedding-Dimension und Anzahl der Heads erheblichen Einfluss auf die Leistung von Vision Transformers haben. Bisherige Modelle konfigurierten diese Dimensionen basierend auf manueller Gestaltung. In dieser Arbeit präsentieren wir einen neuen One-Shot-Architektursuch-Framework namens AutoFormer, der speziell für die Suche nach Vision Transformers entwickelt wurde. AutoFormer verflechtet während des Supernetzwerk-Trainings die Gewichte verschiedener Blöcke innerhalb derselben Schichten. Durch diese Strategie ermöglicht das trainierte Supernet die sehr gut trainierten Unternetze – Tausende von Subnetzen können dabei nahezu optimal trainiert werden. Insbesondere erreichen diese Subnetze, die Gewichte aus dem Supernet erben, eine Leistung, die vergleichbar ist mit jener von Modellen, die von Grund auf neu trainiert wurden. Darüber hinaus übertreffen die gefundenen Modelle, die wir AutoFormers nennen, die neuesten State-of-the-Art-Modelle wie ViT und DeiT. Insbesondere erreichen AutoFormer-tiny/small/base auf ImageNet eine Top-1-Accuracy von 74,7 %/81,7 %/82,4 % mit jeweils 5,7 Mio./22,9 Mio./53,7 Mio. Parametern. Schließlich bestätigen wir die Transferierbarkeit von AutoFormer durch die Evaluierung auf nachgeschalteten Benchmarks und durch Distillationsexperimente. Der Code und die Modelle sind unter https://github.com/microsoft/AutoML verfügbar.