HyperAIHyperAI
vor 17 Tagen

Einbeziehung von Faltungsdesigns in visuelle Transformers

Kun Yuan, Shaopeng Guo, Ziwei Liu, Aojun Zhou, Fengwei Yu, Wei Wu
Einbeziehung von Faltungsdesigns in visuelle Transformers
Abstract

Angespornt durch den Erfolg von Transformers in Aufgaben des natürlichen Sprachverstehens (NLP) entstanden einige Versuche (z. B. ViT und DeiT), Transformers auf den Bereich der Bildverarbeitung zu übertragen. Allerdings erfordern reine Transformer-Architekturen oft eine große Menge an Trainingsdaten oder zusätzliche Supervision, um eine vergleichbare Leistungsfähigkeit mit herkömmlichen Faltungsneuralen Netzen (CNNs) zu erreichen. Um diese Einschränkungen zu überwinden, analysieren wir die potenziellen Nachteile, die sich ergeben, wenn Transformer-Architekturen direkt aus dem NLP-Bereich übernommen werden. Darauf aufbauend schlagen wir einen neuen \textbf{Convolution-enhanced image Transformer (CeiT)} vor, der die Vorteile von CNNs bei der Extraktion niedrigerer Merkmale und der Stärkung räumlicher Lokalität mit den Stärken von Transformers bei der Modellierung langreichweiten Abhängigkeiten verbindet. Drei Modifikationen werden an der ursprünglichen Transformer-Architektur vorgenommen: \textbf{1)} Anstelle einer direkten Tokenisierung aus den Rohbildern entwerfen wir ein \textbf{Image-to-Tokens (I2T)}-Modul, das Patche aus generierten niedrigen-Level-Features extrahiert; \textbf{2)} Der Feed-Forward-Netzwerk-Teil in jedem Encoder-Block wird durch eine \textbf{Locally-enhanced Feed-Forward (LeFF)}-Schicht ersetzt, die die Korrelation zwischen benachbarten Tokens in räumlicher Dimension fördert; \textbf{3)} An der Spitze des Transformers wird eine \textbf{Layer-wise Class token Attention (LCA)}-Einheit angefügt, die mehrstufige Repräsentationen nutzt. Experimentelle Ergebnisse auf ImageNet und sieben nachgeschalteten Aufgaben zeigen die Wirksamkeit und Generalisierungsfähigkeit von CeiT im Vergleich zu früheren Transformers sowie zu aktuellen State-of-the-Art-CNNs – ohne dass eine große Menge an Trainingsdaten oder zusätzliche CNN-Teacher-Modelle erforderlich sind. Zudem demonstrieren CeiT-Modelle eine bessere Konvergenz mit nur einem Drittel der Trainingsiterationen, was die Trainingskosten erheblich senken kann\footnote{Der Quellcode und die Modelle werden nach Annahme veröffentlicht.}.