Wie man Mode-Trends aus sozialen Medien extrahiert? Ein robuster Objekterkennungsalgorithmus mit Unterstützung für unsupervised Learning

Mit der Verbreitung von Social Media hat die Mode, die von Prominenten, renommierten Designern und Modetrendsettern inspiriert wird, den Zyklus von Modedesign und -herstellung verkürzt. Allerdings ist es aufgrund des explosionsartigen Wachstums von modebezogenem Inhalt und der großen Anzahl von Nutzer-generierten Modefotos eine mühsame Aufgabe für Modedesigner, durch Fotos auf Social Media zu stöbern und einen Überblick über aktuelle Trends zu erstellen. Dies erfordert eine detaillierte Analyse von Modefotos auf Social Media, um mehrere Modeartikel in einem gegebenen Foto zu lokalisieren und zu klassifizieren. Obwohl Wettbewerbe wie MSCOCO Tausende von Beispielen für jede Objektkategorie haben, ist es äußerst schwierig, große annotierte Datensätze für Schnittlaufenmode (fast fashion) zu erhalten. Zudem verfügen die neuesten Objekterkennungssysteme nicht über Funktionen zur Verarbeitung großer Mengen unannotierter Daten aus Social Media, um diese mit annotierten Datensätzen weiterzutrainieren.In dieser Arbeit zeigen wir die Anwendung eines generischen Objekterkenners, der in einer unüberwachten Weise vortrainiert werden kann, auf 24 Kategorien aus dem kürzlich veröffentlichten Open Images V4-Datensatz. Wir trainieren zunächst die Basisarchitektur des Objekterserkenners unter Verwendung unüberwachtem Lernens anhand von 60.000 unannotierten Fotos aus 24 Kategorien, die aus Social Media gesammelt wurden. Danach feinjustieren wir ihn anhand von 8.200 annotierten Fotos aus dem Open Images V4-Datensatz. Bei Eingaben von Bildern im Format 300 x 300 erreichen wir auf einem Testdatensatz mit 2.400 Fotos ein mAP (mean Average Precision) von 72,7 % und verbessern uns dabei um 11 % bis 17 % im Vergleich zu den besten bisher bekannten Objekterkennern. Wir demonstrieren, dass diese Verbesserung auf unsere Architekturauswahl zurückzuführen ist, die es uns ermöglicht, unüberwachtes Lernen durchzuführen und bei der Erkennung kleiner Objekte erheblich bessere Ergebnisse liefert.