vor 17 Tagen

DAT++: Raumlich dynamischer Vision Transformer mit verformbarer Aufmerksamkeit

Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang

Abstract

Transformers haben eine herausragende Leistung bei verschiedenen visuellen Aufgaben gezeigt. Ihre große Rezeptivfläche verleiht Transformer-Modellen eine höhere Repräsentationskraft im Vergleich zu ihren CNN-Entsprechungen. Dennoch wirft die bloße Vergrößerung der Rezeptivfläche mehrere Herausforderungen auf. Auf der einen Seite führt die Verwendung dichter Aufmerksamkeit in ViT zu übermäßigen Speicher- und Rechenkosten, und Merkmale können durch irrelevanten Bereich beeinflusst werden, die jenseits des Interessensbereichs liegen. Auf der anderen Seite ist die handgefertigte Aufmerksamkeit in PVT oder Swin Transformer datenunabhängig und kann somit die Fähigkeit zur Modellierung langreichweiter Beziehungen einschränken. Um dieses Dilemma zu lösen, schlagen wir ein neuartiges deformierbares Multi-Head-Aufmerksamkeitsmodul vor, bei dem die Positionen der Schlüssel- und Wert-Paare in der Selbst-Aufmerksamkeit adaptiv und datenabhängig zugewiesen werden. Dieser flexible Ansatz ermöglicht es dem vorgeschlagenen deformierbaren Aufmerksamkeitsmechanismus, dynamisch auf relevante Regionen zu fokussieren, während gleichzeitig die Repräsentationskraft globaler Aufmerksamkeit erhalten bleibt. Auf dieser Grundlage präsentieren wir den Deformable Attention Transformer (DAT), einen allgemeinen visuellen Backbone, der sowohl effizient als auch effektiv für visuelle Erkennungsaufgaben ist. Darüber hinaus entwickeln wir eine verbesserte Version, DAT++. Umfangreiche Experimente zeigen, dass unser DAT++ state-of-the-art Ergebnisse auf verschiedenen Benchmarks für visuelle Erkennung erzielt, mit einer ImageNet-Accuracy von 85,9 %, einer MS-COCO-Instance-Segmentation mAP von 54,5 und 47,0 sowie einer ADE20K-Semantic-Segmentation mIoU von 51,5.