HyperAIHyperAI
vor 17 Tagen

ResMLP: Feedforward-Netzwerke zur Bildklassifikation mit dateneffizientem Training

Hugo Touvron, Piotr Bojanowski, Mathilde Caron, Matthieu Cord, Alaaeldin El-Nouby, Edouard Grave, Gautier Izacard, Armand Joulin, Gabriel Synnaeve, Jakob Verbeek, Hervé Jégou
ResMLP: Feedforward-Netzwerke zur Bildklassifikation mit dateneffizientem Training
Abstract

Wir stellen ResMLP vor, eine Architektur, die vollständig auf mehrschichtigen Perzeptronen für die Bildklassifikation basiert. Es handelt sich um ein einfaches Residual-Netzwerk, das abwechselnd (i) eine lineare Schicht verwendet, in der Bild-Patches unabhängig und identisch über alle Kanäle hinweg interagieren, und (ii) ein zweilagiges Feed-Forward-Netzwerk, in dem die Kanäle pro Patch unabhängig voneinander interagieren. Bei der Ausbildung mit einer modernen Trainingsstrategie, die umfassende Datenaugmentation und gegebenenfalls Distillation beinhaltet, erzielt es überraschend gute Ergebnisse hinsichtlich des Kompromisses aus Genauigkeit und Komplexität auf ImageNet. Zudem trainieren wir ResMLP-Modelle in einer selbstüberwachten Einstellung, um zusätzliche Annahmen durch die Verwendung eines beschrifteten Datensatzes zu vermeiden. Schließlich erreichen wir bei der Anpassung unseres Modells auf maschinelle Übersetzung überraschend gute Ergebnisse. Wir stellen vortrainierte Modelle sowie unseren Code, basierend auf der Timm-Bibliothek, zur Verfügung.

ResMLP: Feedforward-Netzwerke zur Bildklassifikation mit dateneffizientem Training | Neueste Forschungsarbeiten | HyperAI