vor 2 Monaten

Satz-Level-Prompts nutzen die komponierte Bildsuche

Bai, Yang ; Xu, Xinxing ; Liu, Yong ; Khan, Salman ; Khan, Fahad ; Zuo, Wangmeng ; Goh, Rick Siow Mong ; Feng, Chun-Mei

Abstract

Die Aufgabe der zusammengesetzten Bildsuche (Composed Image Retrieval, CIR) besteht darin, spezifische Bilder durch eine Abfrage zu ermitteln, die sowohl ein Referenzbild als auch eine relative Beschriftung umfasst. Die meisten existierenden CIR-Modelle verwenden die Strategie der späten Fusion, um visuelle und sprachliche Merkmale zu kombinieren. Darüber hinaus wurden auch mehrere Ansätze vorgeschlagen, um aus dem Referenzbild ein Pseudo-Wort-Token zu generieren, das anschließend in die relative Beschriftung für CIR integriert wird. Allerdings haben diese Pseudo-Wort-basierten Prompting-Methoden ihre Grenzen, wenn das Zielbild komplexe Veränderungen am Referenzbild enthält, wie zum Beispiel Objektentfernung und Attributmodifikation. In dieser Arbeit zeigen wir, dass das Lernen eines geeigneten satzbezogenen Prompts für die relative Beschriftung (Sentence-Level Prompt for Relative Caption, SPRC) ausreicht, um effektive zusammengesetzte Bildsuche zu erreichen. Anstatt sich auf Pseudo-Wort-basierte Prompts zu verlassen, schlagen wir vor, vortrainierte V-L-Modelle wie BLIP-2 zu nutzen, um satzbezogene Prompts zu generieren. Durch die Kombination des gelernten satzbezogenen Prompts mit der relativen Beschriftung kann man bestehende textbasierte Bildsuchemodelle direkt nutzen, um die Leistung von CIR zu verbessern. Des Weiteren führen wir sowohl den bild-text-kontrastiven Verlust als auch den Text-Prompt-Ausrichtungsverlust ein, um das Lernen geeigneter satzbezogener Prompts zu fördern. Experimente zeigen, dass unser vorgeschlagener Ansatz den neuesten Methoden der zusammengesetzten Bildsuche auf den Datensätzen Fashion-IQ und CIRR überlegen ist. Der Quellcode und das vortrainierte Modell sind öffentlich verfügbar unter https://github.com/chunmeifeng/SPRC