HyperAIHyperAI
vor 17 Tagen

DeBiFormer: Vision Transformer mit deformierbarem Agenten-Zweistufigem Routing-Attention

Nguyen Huu Bao Long, Chenyu Zhang, Yuzhi Shi, Tsubasa Hirakawa, Takayoshi Yamashita, Tohgoroh Matsui, Hironobu Fujiyoshi
DeBiFormer: Vision Transformer mit deformierbarem Agenten-Zweistufigem Routing-Attention
Abstract

Vision Transformers mit verschiedenen Aufmerksamkeitsmodulen haben eine herausragende Leistung bei visuellen Aufgaben gezeigt. Während sparsity-adaptive Aufmerksamkeit, wie beispielsweise in DAT, starke Ergebnisse bei der Bildklassifikation erzielt hat, fehlen die durch deformierbare Punkte ausgewählten Schlüssel-Wert-Paare bei der Feinabstimmung für semantische Segmentierung semantische Relevanz. Die fragenorientierte Sparsitäts-Aufmerksamkeit in BiFormer zielt darauf ab, jede Anfrage auf die k-besten, übergeleiteten Regionen zu konzentrieren. Bei der Berechnung der Aufmerksamkeit werden die ausgewählten Schlüssel-Wert-Paare jedoch durch zu viele irrelevanten Anfragen beeinflusst, was die Aufmerksamkeit auf die wichtigeren Regionen verringert. Um diese Probleme zu lösen, schlagen wir das Deformable Bi-level Routing Attention (DBRA)-Modul vor, das die Auswahl der Schlüssel-Wert-Paare mithilfe von Agenten-Anfragen optimiert und die Interpretierbarkeit der Anfragen in Aufmerksamkeitskarten verbessert. Auf dieser Basis führen wir den Deformable Bi-level Routing Attention Transformer (DeBiFormer) ein, einen neuartigen, allgemein verwendbaren Vision Transformer, der auf dem DBRA-Modul basiert. DeBiFormer wurde an verschiedenen Aufgaben des maschinellen Sehens validiert, darunter Bildklassifikation, Objekterkennung und semantische Segmentierung, wodurch eine überzeugende Bestätigung seiner Wirksamkeit erbracht wird. Der Quellcode ist unter {https://github.com/maclong01/DeBiFormer} verfügbar.