HyperAIHyperAI

Command Palette

Search for a command to run...

Wenn Vision Transformers ResNets ohne Vortrainierung oder starke Datenaugmentierungen übertrumpfen

Xiangning Chen Cho-Jui Hsieh Boqing Gong

Zusammenfassung

Vision Transformers (ViTs) und MLPs signalisieren weitere Anstrengungen, handgezeichnete Merkmale oder induktive Vorurteile durch allgemeine neuronale Architekturen zu ersetzen. Bestehende Ansätze stärken die Modelle durch große Datenmengen, beispielsweise durch großskaliges Vortrainieren und/oder wiederholte, starke Datenaugmentierungen, berichten jedoch weiterhin von optimierungsbezogenen Problemen (z. B. Empfindlichkeit gegenüber Initialisierung und Lernraten). Daher untersucht diese Arbeit ViTs und MLP-Mixers aus der Perspektive der Verlustgeometrie mit dem Ziel, die Daten-Effizienz während des Trainings und die Generalisierungsfähigkeit bei der Inferenz zu verbessern. Visualisierungen und Hessian-Analysen offenbaren extrem scharfe lokale Minima konvergierter Modelle. Durch die Förderung von Glätte mittels eines kürzlich vorgeschlagenen Schärfebewussten Optimierers erreichen wir eine erhebliche Verbesserung der Genauigkeit und Robustheit von ViTs und MLP-Mixers auf verschiedenen Aufgaben, die sich über überwachtes, adversariales, kontrastives und Transfer-Lernen erstrecken (z. B. +5,3 % und +11,0 % Top-1-Accuracy auf ImageNet für ViT-B/16 und Mixer-B/16 jeweils mit der einfachen Inception-artigen Vorverarbeitung). Wir zeigen, dass die verbesserte Glätte auf spärlicheren aktiven Neuronen in den ersten Schichten zurückzuführen ist. Die resultierenden ViTs übertrumpfen bei direktem Training auf ImageNet ohne großskaliges Vortrainieren oder starke Datenaugmentierungen Modelle ähnlicher Größe und Durchsatzleistung wie ResNets. Modell-Checkpoints sind unter \url{https://github.com/google-research/vision_transformer} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp