Command Palette
Search for a command to run...
CrossViT: Cross-Attention Multi-Scale Vision Transformer für die Bildklassifikation
CrossViT: Cross-Attention Multi-Scale Vision Transformer für die Bildklassifikation
Chun-Fu Chen Quanfu Fan Rameswar Panda
Zusammenfassung
Der kürzlich entwickelte Vision Transformer (ViT) hat im Vergleich zu herkömmlichen Faltungsneuralen Netzen (CNNs) vielversprechende Ergebnisse bei der Bildklassifikation erzielt. Inspiriert durch diese Fortschritte untersuchen wir in diesem Artikel, wie man multiskalare Merkmalsdarstellungen in Transformer-Modellen für die Bildklassifikation erlernen kann. Dazu schlagen wir einen dualen Zweig-Transformer vor, der Bildpatches (d. h. Tokens im Transformer) unterschiedlicher Größe kombiniert, um stärkere Bildmerkmale zu generieren. Unser Ansatz verarbeitet kleine und große Patch-Tokens über zwei getrennte Zweige mit unterschiedlichem Berechnungsaufwand und fusioniert diese Tokens anschließend rein durch mehrfache Aufmerksamkeitsmechanismen, um sich gegenseitig zu ergänzen. Darüber hinaus entwickeln wir zur Reduzierung des Rechenaufwands einen einfachen, aber effektiven Token-Fusionsmodul basierend auf Cross-Attention, bei dem jeweils ein einzelner Token pro Zweig als Query dient, um Informationen mit anderen Zweigen auszutauschen. Unser vorgeschlagener Cross-Attention-Modul erfordert sowohl für die Berechnung als auch für den Speicherverbrauch nur lineare Zeitkomplexität anstelle der sonst üblichen quadratischen Komplexität. Umfangreiche Experimente zeigen, dass unser Ansatz gegenüber mehreren gleichzeitigen Arbeiten auf Vision Transformers sowie gegenüber effizienten CNN-Modellen entweder übertrifft oder auf gleichem Niveau liegt. Beispielsweise erreicht unser Ansatz auf dem ImageNet1K-Datensatz, unter Berücksichtigung einiger architektonischer Anpassungen, eine deutliche Verbesserung gegenüber dem jüngsten DeiT um 2 % mit lediglich einer geringen bis moderaten Erhöhung der FLOPs und Modellparameter. Die Quellcodes und Modelle sind unter \url{https://github.com/IBM/CrossViT} verfügbar.