Konvolutionale Xformers für die Vision

Vision-Transformers (ViTs) haben trotz ihrer state-of-the-art Genauigkeit auf bestimmten Benchmarks nur eine begrenzte praktische Anwendung bei der Bildverarbeitung gefunden. Der Grund hierfür liegt in ihrem erhöhten Bedarf an größeren Trainingsdatensätzen und mehr Rechenressourcen im Vergleich zu konvolutionellen neuronalen Netzen (CNNs), bedingt durch die quadratische Komplexität ihres Selbst-Attention-Mechanismus. Wir stellen eine lineare Aufmerksamkeits-Konvolution-Hybridarchitektur – Convolutional X-formers for Vision (CXV) – vor, um diese Einschränkungen zu überwinden. Dabei ersetzen wir die quadratische Aufmerksamkeit durch lineare Aufmerksamkeitsmechanismen wie Performer, Nyströmformer und Linear Transformer, um den GPU-Verbrauch zu reduzieren. Die induktiven Vorwissen für Bilddaten werden durch konvolutionelle Sub-Layer bereitgestellt, wodurch der Einsatz von Class-Token und Positionsembeddings, wie bei ViTs üblich, entfällt. Außerdem präsentieren wir eine neue Trainingsmethode, bei der zwei verschiedene Optimierer in unterschiedlichen Phasen des Trainings eingesetzt werden, und zeigen, dass dies die Top-1-Bildklassifizierungsgenauigkeit über verschiedene Architekturen hinweg verbessert. CXV erreicht eine bessere Leistung als andere Architekturen, Token-Mixer (z. B. ConvMixer, FNet und MLP Mixer), Transformer-Modelle (z. B. ViT, CCT, CvT und Hybrid-Xformers) sowie ResNets bei der Bildklassifizierung in Szenarien mit begrenzten Daten und GPU-Ressourcen (Kerne, RAM, Energie).