Flucht aus dem Big Data-Paradigma mit kompakten Transformatoren

Mit dem Aufkommen von Transformers als Standard für die Sprachverarbeitung und ihren Fortschritten im Bereich der Computer Vision ist es zu einem entsprechenden Anstieg der Parameteranzahl und des Trainingsdatenvolumens gekommen. Viele sind der Ansicht, dass dies Transformers für kleine Datensätze ungeeignet macht. Diese Entwicklung führt zu Bedenken wie der begrenzten Verfügbarkeit von Daten in bestimmten wissenschaftlichen Domänen und der Ausschließung von Personen mit begrenzten Ressourcen aus der Forschung in diesem Bereich. In dieser Arbeit stellen wir einen Ansatz für das Lernen mit kleinen Datensätzen vor, indem wir Compact Transformers (Kompakte Transformer) einführen. Wir zeigen erstmals, dass mit der richtigen Größe und konvolutionsbasierter Tokenisierung Transformer das Überanpassen vermeiden und den aktuellen Stand der Technik bei CNNs in kleinen Datensätzen übertreffen können. Unsere Modelle sind hinsichtlich ihrer Größen flexibel und können bereits ab 0,28 Mio. Parameter wettbewerbsfähige Ergebnisse erzielen. Unser bestes Modell erreicht eine Genauigkeit von 98 % beim Training von Grund auf auf CIFAR-10 mit nur 3,7 Mio. Parametern, was eine erhebliche Verbesserung der Dateneffizienz gegenüber früheren Transformer-basierten Modellen darstellt, die mehr als zehnmal größer sind als andere Transformer und nur 15 % der Größe von ResNet50 haben, während gleichwertige Leistungen erzielt werden. Der Compact Convolutional Transformer (CCT) übertrifft auch viele moderne CNN-basierte Ansätze sowie einige neuere NAS-basierte Ansätze. Zudem erhalten wir ein neues State-of-the-Art-Ergebnis bei Flowers-102 mit einer Top-1-Genauigkeit von 99,76 % und verbessern den bisherigen Baseline bei ImageNet (82,71 % Genauigkeit bei nur 29 % so vielen Parametern wie ViT), sowie bei NLP-Aufgaben. Unsere einfache und kompakte Designstrategie für Transformer macht sie für Personen mit begrenzten Rechenressourcen oder die mit kleinen Datensätzen arbeiten mehr untersuchbar, während sie bestehende Forschungsanstrengungen im Bereich dateneffizienter Transformer fortsetzt. Unser Code und unsere vortrainierten Modelle sind öffentlich verfügbar unter https://github.com/SHI-Labs/Compact-Transformers.