HyperAIHyperAI

Command Palette

Search for a command to run...

Konvolutionale Xformers für die Vision

Pranav Jeevan Amit sethi

Zusammenfassung

Vision-Transformers (ViTs) haben trotz ihrer state-of-the-art Genauigkeit auf bestimmten Benchmarks nur eine begrenzte praktische Anwendung bei der Bildverarbeitung gefunden. Der Grund hierfür liegt in ihrem erhöhten Bedarf an größeren Trainingsdatensätzen und mehr Rechenressourcen im Vergleich zu konvolutionellen neuronalen Netzen (CNNs), bedingt durch die quadratische Komplexität ihres Selbst-Attention-Mechanismus. Wir stellen eine lineare Aufmerksamkeits-Konvolution-Hybridarchitektur – Convolutional X-formers for Vision (CXV) – vor, um diese Einschränkungen zu überwinden. Dabei ersetzen wir die quadratische Aufmerksamkeit durch lineare Aufmerksamkeitsmechanismen wie Performer, Nyströmformer und Linear Transformer, um den GPU-Verbrauch zu reduzieren. Die induktiven Vorwissen für Bilddaten werden durch konvolutionelle Sub-Layer bereitgestellt, wodurch der Einsatz von Class-Token und Positionsembeddings, wie bei ViTs üblich, entfällt. Außerdem präsentieren wir eine neue Trainingsmethode, bei der zwei verschiedene Optimierer in unterschiedlichen Phasen des Trainings eingesetzt werden, und zeigen, dass dies die Top-1-Bildklassifizierungsgenauigkeit über verschiedene Architekturen hinweg verbessert. CXV erreicht eine bessere Leistung als andere Architekturen, Token-Mixer (z. B. ConvMixer, FNet und MLP Mixer), Transformer-Modelle (z. B. ViT, CCT, CvT und Hybrid-Xformers) sowie ResNets bei der Bildklassifizierung in Szenarien mit begrenzten Daten und GPU-Ressourcen (Kerne, RAM, Energie).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Konvolutionale Xformers für die Vision | Paper | HyperAI