Stil verloren? Navigation mit anspruchsvoller semantischer Herangehensweise für Text-zu-Outfit-Abfrage

Modestylisten haben historisch die Lücke zwischen den Wünschen der Verbraucher und perfekten Outfits geschlossen, die komplexe Kombinationen aus Farben, Mustern und Materialien erfordern. Obwohl in jüngster Zeit Fortschritte bei Modeempfehlungssystemen in Bezug auf die Vorhersage der Kompatibilität von Outfits und die Retrieval ergänzender Artikel erzielt wurden, basieren diese Systeme stark auf vorab ausgewählten Kundenpräferenzen. Daher stellen wir einen bahnbrechenden Ansatz für Modeempfehlungen vor: den textbasierten Outfit-Retrieval-Ansatz, der aufgrund reiner Textbeschreibungen durch Nutzer einen vollständigen Outfit-Satz generiert. Unser Modell ist auf drei semantischen Ebenen ausgelegt – Item, Stil und Outfit – wobei jede Ebene Daten schrittweise aggregiert, um auf Basis von Texteingaben eine kohärente Outfit-Empfehlung zu erzeugen. Hierbei nutzen wir Strategien, die denen des kontrastiven Sprache-Bild-Vortrainings (contrastive language-image pretraining) ähneln, um die komplexe Stil-Matrix innerhalb von Outfit-Sets zu bewältigen. Anhand der Datensätze Maryland Polyvore und Polyvore Outfit erreichte unser Ansatz signifikant bessere Ergebnisse als aktuelle State-of-the-Art-Modelle im Bereich der Text-Video-Retrieval-Aufgaben und bestätigt somit seine Wirksamkeit im Bereich der Modeempfehlung. Diese Forschung eröffnet nicht nur eine neue Dimension für Modeempfehlungssysteme, sondern stellt auch eine Methode vor, die die Essenz individueller Stilpräferenzen durch textuelle Beschreibungen erfassen kann.