HyperAIHyperAI

Command Palette

Search for a command to run...

CrossViT: Cross-Attention Multi-Scale Vision Transformer für die Bildklassifikation

Chun-Fu Chen Quanfu Fan Rameswar Panda

Zusammenfassung

Der kürzlich entwickelte Vision Transformer (ViT) hat im Vergleich zu herkömmlichen Faltungsneuralen Netzen (CNNs) vielversprechende Ergebnisse bei der Bildklassifikation erzielt. Inspiriert durch diese Fortschritte untersuchen wir in diesem Artikel, wie man multiskalare Merkmalsdarstellungen in Transformer-Modellen für die Bildklassifikation erlernen kann. Dazu schlagen wir einen dualen Zweig-Transformer vor, der Bildpatches (d. h. Tokens im Transformer) unterschiedlicher Größe kombiniert, um stärkere Bildmerkmale zu generieren. Unser Ansatz verarbeitet kleine und große Patch-Tokens über zwei getrennte Zweige mit unterschiedlichem Berechnungsaufwand und fusioniert diese Tokens anschließend rein durch mehrfache Aufmerksamkeitsmechanismen, um sich gegenseitig zu ergänzen. Darüber hinaus entwickeln wir zur Reduzierung des Rechenaufwands einen einfachen, aber effektiven Token-Fusionsmodul basierend auf Cross-Attention, bei dem jeweils ein einzelner Token pro Zweig als Query dient, um Informationen mit anderen Zweigen auszutauschen. Unser vorgeschlagener Cross-Attention-Modul erfordert sowohl für die Berechnung als auch für den Speicherverbrauch nur lineare Zeitkomplexität anstelle der sonst üblichen quadratischen Komplexität. Umfangreiche Experimente zeigen, dass unser Ansatz gegenüber mehreren gleichzeitigen Arbeiten auf Vision Transformers sowie gegenüber effizienten CNN-Modellen entweder übertrifft oder auf gleichem Niveau liegt. Beispielsweise erreicht unser Ansatz auf dem ImageNet1K-Datensatz, unter Berücksichtigung einiger architektonischer Anpassungen, eine deutliche Verbesserung gegenüber dem jüngsten DeiT um 2 % mit lediglich einer geringen bis moderaten Erhöhung der FLOPs und Modellparameter. Die Quellcodes und Modelle sind unter \url{https://github.com/IBM/CrossViT} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CrossViT: Cross-Attention Multi-Scale Vision Transformer für die Bildklassifikation | Paper | HyperAI