MovingFashion: Eine Benchmark für die Video-to-Shop-Herausforderung

Die Identifizierung von Kleidungsstücken, die in sozialen Medien-Videos (wie Instagram und TikTok) getragen werden, ist die neueste Herausforderung im Bereich der E-Fashion und wird in der Literatur zur Computer Vision als "Video-to-Shop" bezeichnet. In dieser Arbeit stellen wir MovingFashion vor, den ersten öffentlich verfügbaren Datensatz, der sich dieser Aufgabe annimmt. MovingFashion besteht aus 14.855 sozialen Videos, wobei jedem Video ein E-Commerce-"Shop"-Bild zugeordnet ist, auf dem die entsprechenden Kleidungsstücke klar dargestellt sind. Zudem präsentieren wir ein Netzwerk zur Identifizierung der Shop-Bilder in diesem Szenario, das SEAM Match-RCNN genannt wird. Das Modell wird durch eine Bild-zu-Video-Domänenanpassung trainiert, was es ermöglicht, Videosequenzen zu verwenden, bei denen nur ihre Zuordnung zu einem Shop-Bild bekannt ist, sodass die Notwendigkeit von Millionen annotierter Bounding Boxes beseitigt wird. SEAM Match-RCNN erstellt eine Einbettung (Embedding), bei der eine aufmerksamkeitsbasierte gewichtete Summe weniger Frames (10) eines sozialen Videos ausreicht, um das richtige Produkt innerhalb der ersten 5 abgerufenen Elemente in einer Galerie mit über 14.000 Shop-Elementen mit einer Genauigkeit von 80 % zu identifizieren. Dies liefert die besten Ergebnisse auf MovingFashion und wird gegenüber den verwandten Stand-of-the-Art-Ansätzen und alternativen Baselines ausführlich verglichen.