HyperAIHyperAI
vor 17 Tagen

CvT: Einführung von Faltungen in Vision Transformers

Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, Lei Zhang
CvT: Einführung von Faltungen in Vision Transformers
Abstract

In diesem Paper präsentieren wir eine neue Architektur namens Convolutional Vision Transformer (CvT), die die Leistungsfähigkeit und Effizienz des Vision Transformers (ViT) durch die Integration von Faltungen in den ViT verbessert und somit die Vorzüge beider Ansätze vereint. Dies wird durch zwei zentrale Modifikationen erreicht: eine Hierarchie von Transformers mit einer neuartigen faltungsbasierenden Token-Embedding-Methode sowie ein faltungsbasierter Transformer-Block, der eine faltungsbasierte Projektion nutzt. Diese Änderungen verleihen der ViT-Architektur erwünschte Eigenschaften von convolutional neural networks (CNNs), wie Invarianz gegenüber Verschiebung, Skalierung und Verzerrung, während die Stärken von Transformers – nämlich dynamische Aufmerksamkeit, globale Kontextinformationen und bessere Generalisierung – beibehalten werden. Wir validieren CvT durch umfangreiche Experimente und zeigen, dass diese Methode auf ImageNet-1k sowohl gegenüber anderen Vision Transformers als auch gegenüber ResNets die derzeit beste Leistung erzielt, mit weniger Parametern und geringeren FLOPs. Zudem bleiben die Leistungsverbesserungen auch dann erhalten, wenn das Modell auf größeren Datensätzen (z. B. ImageNet-22k) vortrainiert und anschließend auf abgeleitete Aufgaben feinjustiert wird. Mit einem Vortrainingsmodell auf ImageNet-22k erreicht unser CvT-W24 eine Top-1-Accuracy von 87,7 % auf dem Val-Set von ImageNet-1k. Schließlich zeigen unsere Ergebnisse, dass die Positionscodierung – ein entscheidender Bestandteil bestehender Vision Transformers – in unserem Modell sicher entfallen kann, was die Architektur für Aufgaben mit höherer Auflösung vereinfacht. Der Quellcode wird unter \url{https://github.com/leoxiaobin/CvT} veröffentlicht.