Effektive konditionierte und zusammengesetzte Bildretrieval-Methoden durch Kombination von CLIP-basierten Merkmalen

Bedingte und zusammengesetzte Bildretrieval-Systeme erweitern CBIR-Systeme, indem sie eine Abfragebild mit einem zusätzlichen Text kombinieren, der die Absicht des Nutzers ausdrückt und ergänzende Anforderungen bezüglich des visuellen Inhalts des Abfragebilds beschreibt. Diese Suchform ist besonders interessant für Anwendungen im E-Commerce, beispielsweise zur Entwicklung interaktiver multimodaler Suchsysteme und Chatbots. In dieser Demonstration präsentieren wir ein interaktives System, das auf einem Kombinierungsnetzwerk basiert, das mittels kontrastiver Lernverfahren trainiert wurde und visuelle sowie textuelle Merkmale aus dem OpenAI CLIP-Netzwerk integriert, um bedingte CBIR zu realisieren. Das System kann zur Verbesserung von E-Shop-Suchmaschinen eingesetzt werden. So ermöglicht es beispielsweise im Bereich Mode, Kleider, Hemden oder Oberteile anhand eines Ausgangsbilds zu suchen und dabei visuelle Unterschiede hinsichtlich Farbe, Muster oder Form anzugeben. Das vorgeschlagene Netzwerk erreicht state-of-the-art-Leistungen auf dem FashionIQ-Datensatz sowie auf dem jüngeren CIRR-Datensatz und zeigt damit seine Anwendbarkeit für die bedingte Recherche im Modebereich sowie für allgemeinere Inhalte im Rahmen der zusammengesetzten Bildretrieval-Aufgabe.