HyperAIHyperAI

Command Palette

Search for a command to run...

Schnelle Visionstransformer mit HiLo-Aufmerksamkeit

Pan Zizheng ; Cai Jianfei ; Zhuang Bohan

Zusammenfassung

Vision Transformers (ViTs) haben die neuesten und signifikantesten Durchbrüche im Bereich der Computer Vision ausgelöst. Ihre effizienten Designs werden größtenteils durch die indirekte Metrik der Rechenkomplexität, d.h. FLOPs, geleitet, was jedoch einen klaren Unterschied zur direkten Metrik wie Durchsatz aufweist. Daher schlagen wir vor, die direkte Geschwindigkeitsbewertung auf der Zielplattform als Designprinzip für effiziente ViTs zu verwenden. Insbesondere stellen wir LITv2 vor, eine einfache und effektive ViT, die sich bei einer Vielzahl von unterschiedlichen Modellgrößen mit schnellerer Geschwindigkeit günstig gegenüber den bestehenden Stand-der-Technik-Methoden verhält. Im Zentrum von LITv2 steht ein neuartiges Selbst-Aufmerksamkeitsmechanismus, den wir HiLo nennen. HiLo basiert auf dem Erkenntnis, dass hohe Frequenzen in einem Bild lokale Feinheiten erfassen und niedrige Frequenzen sich auf globale Strukturen konzentrieren, während eine Mehrkopf-Selbst-Aufmerksamkeitsschicht die Eigenschaften verschiedener Frequenzen vernachlässigt. Deshalb schlagen wir vor, die Muster hoher/niedriger Frequenzen in einer Aufmerksamkeitsschicht zu trennen, indem wir die Köpfe in zwei Gruppen einteilen: Eine Gruppe kodiert hohe Frequenzen durch Selbst-Aufmerksamkeit innerhalb jedes lokalen Fensters, während die andere Gruppe niedrige Frequenzen durch globale Aufmerksamkeit zwischen den mittelwertbasierten niedrigfrequenten Schlüsseln und Werten aus jedem Fenster und jeder Abfrageposition in der Eingabe-Feature Map kodiert. Dank des effizienten Designs für beide Gruppen zeigen wir, dass HiLo den bestehenden Aufmerksamkeitsmechanismen überlegen ist, indem wir FLOPs, Geschwindigkeit und Speicherverbrauch umfassend auf GPUs und CPUs vergleichen. Zum Beispiel ist HiLo 1,4-mal schneller als räumliche Reduktionsaufmerksamkeit und 1,6-mal schneller als lokale Fensteraufmerksamkeit auf CPUs. Gestützt durch HiLo dient LITv2 als robustes Rückgrat für Hauptvisionaufgaben wie Bildklassifizierung, dichte Detektion und Segmentierung. Der Quellcode ist unter https://github.com/ziplab/LITv2 verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp