Hiera: Ein hierarchischer Vision Transformer ohne zusätzliche Aufwendungen

Moderne hierarchische Vision-Transformers haben mehrere visuelle Komponenten hinzugefügt, um die Leistung bei überwachter Klassifikation zu verbessern. Obwohl diese Komponenten effektive Genauigkeiten und ansprechende FLOP-Zahlen erzielen, führt die zusätzliche Komplexität tatsächlich dazu, dass diese Transformer langsamer sind als ihre einfachen ViT-Gegenstücke. In dieser Arbeit argumentieren wir, dass dieses zusätzliche Volumen nicht notwendig ist. Durch das Vortrainieren mit einer starken visuellen Vorabgabe (MAE) können wir alle Zusatzfunktionen von einem modernsten Mehrrahmen-Vision-Transformer entfernen, ohne an Genauigkeit zu verlieren. Im Verlauf dieses Prozesses haben wir Hiera entwickelt, einen extrem einfachen hierarchischen Vision-Transformer, der genauer als frühere Modelle ist und gleichzeitig erheblich schneller sowohl bei der Inferenz als auch während des Trainings arbeitet. Wir evaluieren Hiera anhand verschiedener Aufgaben für Bild- und Videokennzeichnung. Unser Code und unsere Modelle sind unter https://github.com/facebookresearch/hiera verfügbar.