Neuüberprüfung der schwach überwachten Vortrainierung von visuellen Wahrnehmungsmodellen

Das Vortrainieren von Modellen ist ein Eckpfeiler moderner Systeme zur visuellen Erkennung. Obwohl das vollständig überwachte Vortrainieren auf Datensätzen wie ImageNet weiterhin die de-facto-Standardmethode darstellt, deuten jüngste Studien darauf hin, dass großskaliges schwach überwachtes Vortrainieren die Leistung vollständig überwachter Ansätze übertrifft. In diesem Artikel untersuchen wir erneut das schwach überwachte Vortrainieren von Modellen mittels Hashtag-Supervision unter Verwendung moderner Residual-Netzwerke und des bisher größten je gesammelten Datensatzes aus Bildern und zugehörigen Hashtags. Wir evaluieren die Leistung der resultierenden Modelle in verschiedenen Transfer-Learning-Szenarien, einschließlich Zero-Shot-Transfer. Zudem vergleichen wir unsere Modelle mit solchen, die durch großskaliges selbstüberwachtes Lernen erzielt wurden. Wir stellen fest, dass unsere schwach überwachten Modelle in allen Szenarien sehr wettbewerbsfähig sind und ihre selbstüberwachten Kollegen erheblich übertreffen. Darüber hinaus führen wir eine Untersuchung durch, ob unsere Modelle potenziell problematische Assoziationen oder Stereotypen gelernt haben könnten. Insgesamt liefern unsere Ergebnisse ein überzeugendes Argument für die Verwendung schwach überwachten Lernens bei der Entwicklung visueller Erkennungssysteme. Unsere Modelle, die Supervised Weakly through hashtAGs (SWAG), sind öffentlich zugänglich.