HyperAIHyperAI
vor 17 Tagen

Twins: Nochmals über die Gestaltung der räumlichen Aufmerksamkeit in Vision Transformers

Xiangxiang Chu, Zhi Tian, Yuqing Wang, Bo Zhang, Haibing Ren, Xiaolin Wei, Huaxia Xia, Chunhua Shen
Twins: Nochmals über die Gestaltung der räumlichen Aufmerksamkeit in Vision Transformers
Abstract

Kürzlich wurden eine Vielzahl von Vision-Transformer-Architekturen für Aufgaben der dichten Vorhersage vorgeschlagen, wobei sich zeigte, dass die Gestaltung des räumlichen Aufmerksamkeitsmechanismus entscheidend für ihren Erfolg in diesen Aufgaben ist. In dieser Arbeit überprüfen wir erneut die Gestaltung des räumlichen Aufmerksamkeitsmechanismus und zeigen, dass ein sorgfältig entworfener, jedoch einfacher Ansatz gegenüber den aktuellen State-of-the-Art-Verfahren überlegen ist. Als Ergebnis stellen wir zwei neue Vision-Transformer-Architekturen vor: Twins-PCPVT und Twins-SVT. Die vorgeschlagenen Architekturen sind hoch-effizient und einfach zu implementieren und beinhalten ausschließlich Matrix-Multiplikationen, die in modernen Deep-Learning-Frameworks stark optimiert sind. Vor allem erreichen die vorgeschlagenen Architekturen herausragende Leistung in einer Vielzahl visueller Aufgaben, darunter Bildklassifikation sowie dichte Detektion und Segmentierung. Die Einfachheit und die starke Leistung deuten darauf hin, dass unsere Architekturen als robuste Backbone-Modelle für zahlreiche visuelle Aufgaben dienen können. Der Quellcode ist unter https://github.com/Meituan-AutoML/Twins verfügbar.

Twins: Nochmals über die Gestaltung der räumlichen Aufmerksamkeit in Vision Transformers | Neueste Forschungsarbeiten | HyperAI