HyperAIHyperAI

Command Palette

Search for a command to run...

Verständnis des Gaussian-Attention-Verzerrung von Vision Transformers unter Verwendung effektiver Empfangsfelder

Bum Jun Kim Hyeyeon Choi Hyeonah Jang Sang Woo Kim

Zusammenfassung

Vision Transformers (ViTs), die ein Bild als eine Folge von zerschnittenen Patchs modellieren, haben in verschiedenen visuellen Aufgaben beachtliche Leistungen erzielt. Da die Zerlegung in Patchs die räumliche Struktur des Bildes aufhebt, verwenden ViTs zur Erfassung der Patch-Reihenfolge eine explizite Komponente namens Positionsembedding. Wir behaupten jedoch, dass die Verwendung von Positionsembedding nicht automatisch eine Ordnungsbewusstheit im ViT gewährleistet. Um diese Behauptung zu untermauern, analysieren wir das tatsächliche Verhalten von ViTs mittels eines effektiven Empfangsfelds. Wir zeigen, dass ViTs während des Trainings aus dem Positionsembedding eine Vorstellung von der Patch-Reihenfolge erlangen, das darauf trainiert ist, einen spezifischen Muster zu repräsentieren. Auf Basis dieser Beobachtung schlagen wir vor, explizit eine Gaußsche Aufmerksamkeits-Bias-Komponente hinzuzufügen, die das Positionsembedding bereits zu Beginn des Trainings dazu führt, das entsprechende Muster anzunehmen. Wir evaluierten den Einfluss des Gaußschen Aufmerksamkeits-Bias auf die Leistung von ViTs in mehreren Experimenten zur Bildklassifikation, Objektdetektion und semantischen Segmentierung. Die Ergebnisse zeigen, dass die vorgeschlagene Methode nicht nur dazu beiträgt, dass ViTs Bilder besser verstehen, sondern auch die Leistung auf verschiedenen Datensätzen, einschließlich ImageNet, COCO 2017 und ADE20K, verbessert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp