vor 17 Tagen

LeViT: Ein Vision Transformer in ConvNet-Äußeren für schnellere Inferenz

Ben Graham, Alaaeldin El-Nouby, Hugo Touvron, Pierre Stock, Armand Joulin, Hervé Jégou, Matthijs Douze

Abstract

Wir entwerfen eine Familie von Bildklassifizierungsarchitekturen, die das Verhältnis zwischen Genauigkeit und Effizienz in einem Hochgeschwindigkeitsbetrieb optimieren. Unsere Arbeit nutzt jüngste Erkenntnisse aus attentionbasierten Architekturen, die auf hochparallelen Verarbeitungsplattformen wettbewerbsfähig sind. Wir überdenken Prinzipien aus der umfangreichen Literatur zu konvolutionellen neuronalen Netzwerken, um sie auf Transformers anzuwenden, insbesondere Aktivierungskarten mit abnehmender Auflösung. Zudem führen wir die Attention-Bias-Einheit ein, eine neue Methode zur Integration von Positionsinformationen in Vision Transformers. Als Ergebnis präsentieren wir LeVIT: ein hybrides neuronales Netzwerk für schnelle Inferenz bei der Bildklassifizierung. Wir berücksichtigen verschiedene Effizienzmaße auf unterschiedlichen Hardwareplattformen, um eine breite Palette von Anwendungsszenarien bestmöglich abzubilden. Unsere umfangreichen Experimente bestätigen empirisch unsere technischen Entscheidungen und zeigen, dass diese für die meisten Architekturen geeignet sind. Insgesamt übertrifft LeVIT bestehende ConvNets und Vision Transformers hinsichtlich des Geschwindigkeits-/Genauigkeits-Trade-offs deutlich. Beispielsweise ist LeVIT bei 80 % ImageNet Top-1-Accuracy auf der CPU fünfmal schneller als EfficientNet. Den Quellcode veröffentlichen wir unter https://github.com/facebookresearch/LeViT.