Vortrainen wie Ihre Inferenz: Maschierter Feinjustierung verbessert die zero-shot-komponierte Bildsuche

Zero-Shot Composed Image Retrieval (ZS-CIR), eine Methode, die eine textuelle Änderung und ein Referenzbild als Abfrage verwendet, um ein Zielbild ohne Triplettenbeschriftung zu retrivieren, hat in der Datenbankverwaltung zunehmend an Bedeutung gewonnen. Die aktuelle ZS-CIR-Forschung basiert hauptsächlich auf der Generalisierungsfähigkeit vortrainierter Vision-Sprach-Modelle wie CLIP. Allerdings gibt es erhebliche Unterschiede zwischen den vortrainierten Vision-Sprach-Modellen und den CIR-Aufgaben: Während die Vision-Sprach-Modelle sich auf das Lernen von Ähnlichkeiten konzentrieren, zielt CIR darauf ab, textgeleitete Änderungen des Bildes zu lernen.In dieser Arbeit stellen wir einen neuen Ansatz vor, der unlabeled und vortrainierte maskierte Tuning verwendet, um die Lücke zwischen dem vortrainierten Vision-Sprach-Modell und der nachgeschalteten CIR-Aufgabe zu verringern. Zunächst reformulieren wir das kontrastive Lernen des Vision-Sprach-Modells als CIR-Aufgabe, bei der wir Eingangsbildsegmente zufällig maskeieren, um aus einem Bild-Text-Paar ein $\langle$maskiertes Bild, Text, Bild$\rangle$-Triplet zu generieren. Anschließend schlagen wir eine einfache aber innovative Methode des vortrainierten maskierten Tunings vor, die Text und maskiertes Bild verwendet, um die Änderungen des ursprünglichen Bildes zu lernen. Durch dieses einfache Design kann das vorgeschlagene maskierte Tuning feinkörnige textgeleitete Änderungen besser erfassen.Ausführliche experimentelle Ergebnisse zeigen die signifikante Überlegenheit unseres Ansatzes gegenüber den Basismodellen auf vier ZS-CIR-Datensätzen: FashionIQ, CIRR, CIRCO und GeneCIS. Unser Code ist unter https://github.com/Chen-Junyang-cn/PLI verfügbar.