Kompositionales Lernen von Bild-Text-Anfragen für die Bildsuche

In dieser Arbeit untersuchen wir das Problem der Bilderabfrage aus einer Datenbank auf Basis einer multimodalen (Bild-Text) Anfrage. Insbesondere soll der Text der Anfrage Änderungen am Bild vorschlagen, und die Aufgabe besteht darin, Bilder mit den gewünschten Änderungen zu ermitteln. Zum Beispiel ist eine Nutzerin eines E-Commerce-Plattforms daran interessiert, ein Kleid zu kaufen, das ähnlich wie das ihrer Freundin aussieht, aber weiß sein sollte und einen Schleifen-Schärpe haben. In diesem Fall möchten wir, dass der Algorithmus einige Kleider mit den gewünschten Änderungen am Abfragebild findet. Wir schlagen ein auf Autoencodern basierendes Modell vor, ComposeAE, um die Komposition von Bild- und Textanfragen für die Bildersuche zu lernen. Wir verwenden einen Ansatz des tiefen Metrik-Learnings und lernen eine Metrik, die die Komposition von Quellbild und Textanfrage näher an die Zielbilder bringt. Darüber hinaus schlagen wir eine rotationsymmetrische Nebenbedingung für das Optimierungsproblem vor. Unser Ansatz übertrifft die state-of-the-art Methode TIRG \cite{TIRG} in drei Benchmark-Datensätzen: MIT-States, Fashion200k und Fashion IQ. Um eine faire Vergleichbarkeit sicherzustellen, führen wir starke Baseline-Methoden ein, indem wir die TIRG-Methode verbessern. Um die Reproduzierbarkeit der Ergebnisse zu gewährleisten, veröffentlichen wir unseren Code hier: \url{https://github.com/ecom-research/ComposeAE}.