Automatische räumlich bewusste Entdeckung von Modedesigns

Dieses Papier schlägt einen automatischen Ansatz zur Entdeckung räumlich bewusster Konzepte vor, der schwach beschriftete Bild-Text-Daten von Einkaufswebseiten verwendet. Zunächst feinjustieren wir GoogleNet, indem wir Kleidungsbilder und ihre entsprechenden Beschreibungen in einem visuellen-semantischen Einbettungsraum gemeinsam modellieren. Anschließend generieren wir für jedes Attribut (Wort) dessen räumlich bewusste Darstellung, indem wir dessen semantische Wortvektordarstellung mit dessen räumlicher Darstellung kombinieren, die aus den Faltungsabbildungen des feinjustierten Netzes abgeleitet wird. Die resultierenden räumlich bewussten Darstellungen werden anschließend verwendet, um Attribute in mehrere Gruppen zu clustern und so räumlich bewusste Konzepte zu bilden (z.B. das Konzept des Ausschnitts könnte Attribute wie V-Ausschnitt, Rundhals usw. umfassen). Schließlich zerlegen wir den visuellen-semantischen Einbettungsraum in mehrere konzept-spezifische Teilräume, was durch die Ausnutzung multimodaler linguistischer Regularitäten eine strukturierte Durchsuchung und ein attribut-basiertes Produkt-Retrieval erleichtert. Wir haben umfangreiche Experimente auf unserem neu gesammelten Fashion200K-Datensatz durchgeführt, und die Ergebnisse der Clustering-Qualitätsevaluierung sowie der Aufgabe des attribut-basierten Produkt-Retrievals belegen die Effektivität unserer automatisch entdeckten räumlich bewussten Konzepte.