Wenn Vision Transformers ResNets ohne Vortrainierung oder starke Datenaugmentierungen übertrumpfen

Vision Transformers (ViTs) und MLPs signalisieren weitere Anstrengungen, handgezeichnete Merkmale oder induktive Vorurteile durch allgemeine neuronale Architekturen zu ersetzen. Bestehende Ansätze stärken die Modelle durch große Datenmengen, beispielsweise durch großskaliges Vortrainieren und/oder wiederholte, starke Datenaugmentierungen, berichten jedoch weiterhin von optimierungsbezogenen Problemen (z. B. Empfindlichkeit gegenüber Initialisierung und Lernraten). Daher untersucht diese Arbeit ViTs und MLP-Mixers aus der Perspektive der Verlustgeometrie mit dem Ziel, die Daten-Effizienz während des Trainings und die Generalisierungsfähigkeit bei der Inferenz zu verbessern. Visualisierungen und Hessian-Analysen offenbaren extrem scharfe lokale Minima konvergierter Modelle. Durch die Förderung von Glätte mittels eines kürzlich vorgeschlagenen Schärfebewussten Optimierers erreichen wir eine erhebliche Verbesserung der Genauigkeit und Robustheit von ViTs und MLP-Mixers auf verschiedenen Aufgaben, die sich über überwachtes, adversariales, kontrastives und Transfer-Lernen erstrecken (z. B. +5,3 % und +11,0 % Top-1-Accuracy auf ImageNet für ViT-B/16 und Mixer-B/16 jeweils mit der einfachen Inception-artigen Vorverarbeitung). Wir zeigen, dass die verbesserte Glätte auf spärlicheren aktiven Neuronen in den ersten Schichten zurückzuführen ist. Die resultierenden ViTs übertrumpfen bei direktem Training auf ImageNet ohne großskaliges Vortrainieren oder starke Datenaugmentierungen Modelle ähnlicher Größe und Durchsatzleistung wie ResNets. Modell-Checkpoints sind unter \url{https://github.com/google-research/vision_transformer} verfügbar.