Command Palette
Search for a command to run...
Schnelle Visionstransformer mit HiLo-Aufmerksamkeit
Schnelle Visionstransformer mit HiLo-Aufmerksamkeit
Pan Zizheng ; Cai Jianfei ; Zhuang Bohan
Zusammenfassung
Vision Transformers (ViTs) haben die neuesten und signifikantesten Durchbrüche im Bereich der Computer Vision ausgelöst. Ihre effizienten Designs werden größtenteils durch die indirekte Metrik der Rechenkomplexität, d.h. FLOPs, geleitet, was jedoch einen klaren Unterschied zur direkten Metrik wie Durchsatz aufweist. Daher schlagen wir vor, die direkte Geschwindigkeitsbewertung auf der Zielplattform als Designprinzip für effiziente ViTs zu verwenden. Insbesondere stellen wir LITv2 vor, eine einfache und effektive ViT, die sich bei einer Vielzahl von unterschiedlichen Modellgrößen mit schnellerer Geschwindigkeit günstig gegenüber den bestehenden Stand-der-Technik-Methoden verhält. Im Zentrum von LITv2 steht ein neuartiges Selbst-Aufmerksamkeitsmechanismus, den wir HiLo nennen. HiLo basiert auf dem Erkenntnis, dass hohe Frequenzen in einem Bild lokale Feinheiten erfassen und niedrige Frequenzen sich auf globale Strukturen konzentrieren, während eine Mehrkopf-Selbst-Aufmerksamkeitsschicht die Eigenschaften verschiedener Frequenzen vernachlässigt. Deshalb schlagen wir vor, die Muster hoher/niedriger Frequenzen in einer Aufmerksamkeitsschicht zu trennen, indem wir die Köpfe in zwei Gruppen einteilen: Eine Gruppe kodiert hohe Frequenzen durch Selbst-Aufmerksamkeit innerhalb jedes lokalen Fensters, während die andere Gruppe niedrige Frequenzen durch globale Aufmerksamkeit zwischen den mittelwertbasierten niedrigfrequenten Schlüsseln und Werten aus jedem Fenster und jeder Abfrageposition in der Eingabe-Feature Map kodiert. Dank des effizienten Designs für beide Gruppen zeigen wir, dass HiLo den bestehenden Aufmerksamkeitsmechanismen überlegen ist, indem wir FLOPs, Geschwindigkeit und Speicherverbrauch umfassend auf GPUs und CPUs vergleichen. Zum Beispiel ist HiLo 1,4-mal schneller als räumliche Reduktionsaufmerksamkeit und 1,6-mal schneller als lokale Fensteraufmerksamkeit auf CPUs. Gestützt durch HiLo dient LITv2 als robustes Rückgrat für Hauptvisionaufgaben wie Bildklassifizierung, dichte Detektion und Segmentierung. Der Quellcode ist unter https://github.com/ziplab/LITv2 verfügbar.