Pic2Word: Abbildung von Bildern auf Wörter für zero-shot kombinierte Bildsuche

Im Bereich der Composed Image Retrieval (CIR) kombiniert ein Benutzer ein Abfragebild mit Text, um das gewünschte Ziel zu beschreiben. Bestehende Methoden basieren auf dem überwachten Lernen von CIR-Modellen unter Verwendung etikettierter Triplets, die aus dem Abfragebild, der Textspezifikation und dem Zielbild bestehen. Die Etikettierung solcher Triplets ist teuer und behindert die breite Anwendbarkeit von CIR. In dieser Arbeit schlagen wir vor, eine wichtige Aufgabe namens Zero-Shot Composed Image Retrieval (ZS-CIR) zu untersuchen, deren Ziel es ist, ein CIR-Modell ohne die Notwendigkeit von etikettierten Triplets für das Training zu erstellen. Zu diesem Zweck stellen wir eine neuartige Methode vor, die Pic2Word genannt wird und nur schwach etikettierte Bild-Beschreibungspaare sowie unetikettierte Bild-Datensätze zum Training benötigt. Im Gegensatz zu den existierenden überwachten CIR-Modellen zeigt unser Modell, das auf schwach etikettierten oder unetikettierten Datensätzen trainiert wurde, eine starke Generalisierungsfähigkeit bei verschiedenen ZS-CIR-Aufgaben, wie z.B. Attributbearbeitung, Objektkomposition und Domänenkonvertierung. Unser Ansatz übertrifft mehrere überwachte CIR-Methoden in den gängigen CIR-Benchmarks CIRR und Fashion-IQ. Der Quellcode wird öffentlich zur Verfügung gestellt unter https://github.com/google-research/composed_image_retrieval.