HyperAIHyperAI

Command Palette

Search for a command to run...

Kompositionales Lernen von Bild-Text-Anfragen für die Bildsuche

Muhammad Umer Anwaar; Egor Labintcev; Martin Kleinsteuber

Zusammenfassung

In dieser Arbeit untersuchen wir das Problem der Bilderabfrage aus einer Datenbank auf Basis einer multimodalen (Bild-Text) Anfrage. Insbesondere soll der Text der Anfrage Änderungen am Bild vorschlagen, und die Aufgabe besteht darin, Bilder mit den gewünschten Änderungen zu ermitteln. Zum Beispiel ist eine Nutzerin eines E-Commerce-Plattforms daran interessiert, ein Kleid zu kaufen, das ähnlich wie das ihrer Freundin aussieht, aber weiß sein sollte und einen Schleifen-Schärpe haben. In diesem Fall möchten wir, dass der Algorithmus einige Kleider mit den gewünschten Änderungen am Abfragebild findet. Wir schlagen ein auf Autoencodern basierendes Modell vor, ComposeAE, um die Komposition von Bild- und Textanfragen für die Bildersuche zu lernen. Wir verwenden einen Ansatz des tiefen Metrik-Learnings und lernen eine Metrik, die die Komposition von Quellbild und Textanfrage näher an die Zielbilder bringt. Darüber hinaus schlagen wir eine rotationsymmetrische Nebenbedingung für das Optimierungsproblem vor. Unser Ansatz übertrifft die state-of-the-art Methode TIRG \cite{TIRG} in drei Benchmark-Datensätzen: MIT-States, Fashion200k und Fashion IQ. Um eine faire Vergleichbarkeit sicherzustellen, führen wir starke Baseline-Methoden ein, indem wir die TIRG-Methode verbessern. Um die Reproduzierbarkeit der Ergebnisse zu gewährleisten, veröffentlichen wir unseren Code hier: \url{https://github.com/ecom-research/ComposeAE}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kompositionales Lernen von Bild-Text-Anfragen für die Bildsuche | Paper | HyperAI