HyperAIHyperAI
vor 17 Tagen

DeiT III: Die Rache der ViT

Hugo Touvron, Matthieu Cord, Hervé Jégou
DeiT III: Die Rache der ViT
Abstract

Ein Vision Transformer (ViT) ist eine einfache neuronale Architektur, die sich für verschiedene Aufgaben im Bereich des maschinellen Sehens eignet. Im Gegensatz zu jüngeren Architekturen, die entweder Vorwissen über die Eingabedaten oder spezifische Aufgaben in ihre Struktur integrieren, verfügt ein ViT über nur geringe eingebaute architektonische Vorkenntnisse. Neuere Arbeiten zeigen, dass ViTs von selbstüberwachtem Vortrainings profitieren, insbesondere von Vortrainingsansätzen, die an BerT-ähnliche Verfahren wie BeiT angelehnt sind. In diesem Paper überprüfen wir erneut die überwachte Trainingsstrategie für ViTs. Unser Verfahren baut auf und vereinfacht ein Rezept auf, das ursprünglich für das Training von ResNet-50 entwickelt wurde. Es beinhaltet eine neue, einfache Daten-Augmentierungsmethode mit lediglich drei Augmentierungsoperationen, die der Praxis im selbstüberwachten Lernen näherkommt. Unsere Evaluationen im Bereich der Bildklassifikation (ImageNet-1k mit und ohne Vortrainings auf ImageNet-21k), Transferlernen und semantischer Segmentierung zeigen, dass unser Verfahren im Vergleich zu früheren vollständig überwachten Trainingsrezepten für ViTs deutlich übertrifft. Zudem zeigt sich, dass die Leistung unseres mit Überwachung trainierten ViTs vergleichbar ist mit der jüngerer Architekturen. Unsere Ergebnisse können als verbesserte Baselines für neuere selbstüberwachte Ansätze dienen, die auf ViT demonstriert wurden.

DeiT III: Die Rache der ViT | Neueste Forschungsarbeiten | HyperAI