Kontextbasierte visuelle Kompatibilitätsprediktion

Wie bestimmen wir, ob zwei oder mehr Kleidungsstücke kompatibel oder visuell ansprechend sind? Ein Teil der Antwort liegt im Verständnis von visuellen Ästhetik und wird durch persönliche Vorlieben beeinflusst, die wiederum von sozialen Einstellungen, Zeit und Ort geprägt sind. In dieser Arbeit schlagen wir eine Methode vor, die die Kompatibilität zwischen zwei Kleidungsstücken basierend auf ihren visuellen Merkmalen sowie ihrem Kontext vorhersagt. Wir definieren den Kontext als die Produkte, die bekanntermaßen mit jedem dieser Artikel kompatibel sind. Unser Modell steht im Gegensatz zu anderen metrischen Lernansätzen, die sich allein auf paarweise Vergleiche der Artikelmerkmale stützen. Wir behandeln das Problem der Kompatibilitätsvorhersage mithilfe eines Graph-Neuralnetzes, das lernt, Produkt-Embeddings unter Berücksichtigung ihres Kontexts zu generieren. Wir präsentieren Ergebnisse für zwei Vorhersageaufgaben (Lückentext und Outfit-Kompatibilität), getestet auf den beiden Fashion-Datensätzen Polyvore und Fashion-Gen sowie einem Teil des Amazon-Datensatzes; bei Verwendung von Kontextinformationen erreichen wir Stand-of-the-Art-Ergebnisse und zeigen, wie sich die Testleistung verbessert, wenn mehr Kontext verwendet wird.