vor 17 Tagen

Verständnis des Gaussian-Attention-Verzerrung von Vision Transformers unter Verwendung effektiver Empfangsfelder

Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Sang Woo Kim

Abstract

Vision Transformers (ViTs), die ein Bild als eine Folge von zerschnittenen Patchs modellieren, haben in verschiedenen visuellen Aufgaben beachtliche Leistungen erzielt. Da die Zerlegung in Patchs die räumliche Struktur des Bildes aufhebt, verwenden ViTs zur Erfassung der Patch-Reihenfolge eine explizite Komponente namens Positionsembedding. Wir behaupten jedoch, dass die Verwendung von Positionsembedding nicht automatisch eine Ordnungsbewusstheit im ViT gewährleistet. Um diese Behauptung zu untermauern, analysieren wir das tatsächliche Verhalten von ViTs mittels eines effektiven Empfangsfelds. Wir zeigen, dass ViTs während des Trainings aus dem Positionsembedding eine Vorstellung von der Patch-Reihenfolge erlangen, das darauf trainiert ist, einen spezifischen Muster zu repräsentieren. Auf Basis dieser Beobachtung schlagen wir vor, explizit eine Gaußsche Aufmerksamkeits-Bias-Komponente hinzuzufügen, die das Positionsembedding bereits zu Beginn des Trainings dazu führt, das entsprechende Muster anzunehmen. Wir evaluierten den Einfluss des Gaußschen Aufmerksamkeits-Bias auf die Leistung von ViTs in mehreren Experimenten zur Bildklassifikation, Objektdetektion und semantischen Segmentierung. Die Ergebnisse zeigen, dass die vorgeschlagene Methode nicht nur dazu beiträgt, dass ViTs Bilder besser verstehen, sondern auch die Leistung auf verschiedenen Datensätzen, einschließlich ImageNet, COCO 2017 und ADE20K, verbessert.