Pretraining mit ImageNet-21K für die Masse

ImageNet-1K dient als primäres Datenset für das Vortrainieren von Deep-Learning-Modellen für Aufgaben im Bereich des maschinellen Sehens. Das größere und vielfältigere ImageNet-21K-Datenset wird hingegen seltener für das Vortrainieren verwendet, hauptsächlich aufgrund seiner Komplexität, geringen Zugänglichkeit und unterschätzten Nutzenpotenzial. In dieser Arbeit soll diese Lücke geschlossen werden, um eine hochwertige und effiziente Vortrainierung auf ImageNet-21K für jedermann zugänglich zu machen. Durch eine speziell entwickelte Vorverarbeitungsstufe, die Nutzung der hierarchischen Struktur von WordNet sowie ein neuartiges Trainingsverfahren namens semantischer Softmax zeigen wir, dass verschiedene Modelle – einschließlich kleiner, mobiloptimierter Architekturen – erhebliche Vorteile aus einer Vortrainierung auf ImageNet-21K auf zahlreichen Datensätzen und Aufgaben ziehen. Zudem demonstrieren wir, dass unsere Methode bestehende Vortrainingsansätze für bahnbrechende neue Modelle wie ViT und Mixer übertrifft. Unser vorgeschlagenes Vortrainings-Pipeline ist effizient, leicht zugänglich und liefert state-of-the-art (SoTA) reproduzierbare Ergebnisse auf Basis eines öffentlich verfügbaren Datensets. Der Trainingscode sowie die vortrainierten Modelle sind unter folgender URL verfügbar: https://github.com/Alibaba-MIIL/ImageNet21K