HyperAIHyperAI

Command Palette

Search for a command to run...

DAT++: Raumlich dynamischer Vision Transformer mit verformbarer Aufmerksamkeit

Zhuofan Xia Xuran Pan Shiji Song Li Erran Li Gao Huang

Zusammenfassung

Transformers haben eine herausragende Leistung bei verschiedenen visuellen Aufgaben gezeigt. Ihre große Rezeptivfläche verleiht Transformer-Modellen eine höhere Repräsentationskraft im Vergleich zu ihren CNN-Entsprechungen. Dennoch wirft die bloße Vergrößerung der Rezeptivfläche mehrere Herausforderungen auf. Auf der einen Seite führt die Verwendung dichter Aufmerksamkeit in ViT zu übermäßigen Speicher- und Rechenkosten, und Merkmale können durch irrelevanten Bereich beeinflusst werden, die jenseits des Interessensbereichs liegen. Auf der anderen Seite ist die handgefertigte Aufmerksamkeit in PVT oder Swin Transformer datenunabhängig und kann somit die Fähigkeit zur Modellierung langreichweiter Beziehungen einschränken. Um dieses Dilemma zu lösen, schlagen wir ein neuartiges deformierbares Multi-Head-Aufmerksamkeitsmodul vor, bei dem die Positionen der Schlüssel- und Wert-Paare in der Selbst-Aufmerksamkeit adaptiv und datenabhängig zugewiesen werden. Dieser flexible Ansatz ermöglicht es dem vorgeschlagenen deformierbaren Aufmerksamkeitsmechanismus, dynamisch auf relevante Regionen zu fokussieren, während gleichzeitig die Repräsentationskraft globaler Aufmerksamkeit erhalten bleibt. Auf dieser Grundlage präsentieren wir den Deformable Attention Transformer (DAT), einen allgemeinen visuellen Backbone, der sowohl effizient als auch effektiv für visuelle Erkennungsaufgaben ist. Darüber hinaus entwickeln wir eine verbesserte Version, DAT++. Umfangreiche Experimente zeigen, dass unser DAT++ state-of-the-art Ergebnisse auf verschiedenen Benchmarks für visuelle Erkennung erzielt, mit einer ImageNet-Accuracy von 85,9 %, einer MS-COCO-Instance-Segmentation mAP von 54,5 und 47,0 sowie einer ADE20K-Semantic-Segmentation mIoU von 51,5.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DAT++: Raumlich dynamischer Vision Transformer mit verformbarer Aufmerksamkeit | Paper | HyperAI