Command Palette
Search for a command to run...
DeBiFormer: Vision Transformer mit deformierbarem Agenten-Zweistufigem Routing-Attention
DeBiFormer: Vision Transformer mit deformierbarem Agenten-Zweistufigem Routing-Attention
Nguyen Huu Bao Long Chenyu Zhang Yuzhi Shi Tsubasa Hirakawa Takayoshi Yamashita Tohgoroh Matsui Hironobu Fujiyoshi
Zusammenfassung
Vision Transformers mit verschiedenen Aufmerksamkeitsmodulen haben eine herausragende Leistung bei visuellen Aufgaben gezeigt. Während sparsity-adaptive Aufmerksamkeit, wie beispielsweise in DAT, starke Ergebnisse bei der Bildklassifikation erzielt hat, fehlen die durch deformierbare Punkte ausgewählten Schlüssel-Wert-Paare bei der Feinabstimmung für semantische Segmentierung semantische Relevanz. Die fragenorientierte Sparsitäts-Aufmerksamkeit in BiFormer zielt darauf ab, jede Anfrage auf die k-besten, übergeleiteten Regionen zu konzentrieren. Bei der Berechnung der Aufmerksamkeit werden die ausgewählten Schlüssel-Wert-Paare jedoch durch zu viele irrelevanten Anfragen beeinflusst, was die Aufmerksamkeit auf die wichtigeren Regionen verringert. Um diese Probleme zu lösen, schlagen wir das Deformable Bi-level Routing Attention (DBRA)-Modul vor, das die Auswahl der Schlüssel-Wert-Paare mithilfe von Agenten-Anfragen optimiert und die Interpretierbarkeit der Anfragen in Aufmerksamkeitskarten verbessert. Auf dieser Basis führen wir den Deformable Bi-level Routing Attention Transformer (DeBiFormer) ein, einen neuartigen, allgemein verwendbaren Vision Transformer, der auf dem DBRA-Modul basiert. DeBiFormer wurde an verschiedenen Aufgaben des maschinellen Sehens validiert, darunter Bildklassifikation, Objekterkennung und semantische Segmentierung, wodurch eine überzeugende Bestätigung seiner Wirksamkeit erbracht wird. Der Quellcode ist unter {https://github.com/maclong01/DeBiFormer} verfügbar.