Sprachbasiert effizientes Training für zero-shot kombinierte Bildsuche

Die Aufgabe der zusammengesetzten Bildsuche (Composed Image Retrieval, CIR) besteht darin, eine Kombination aus Bild- und Textanfrage zu verarbeiten, um relevante Bilder für beide Bedingungen zu finden. Herkömmliche CIR-Ansätze erfordern ein Trainingsdatensatz, der aus Tripletten von Anfragebild, Anfragetext und Zielbild besteht, was sehr kostspielig ist, zu sammeln. Mehrere kürzlich veröffentlichte Arbeiten haben sich mit dem Paradigma der Nullschuss-(Zero-Shot, ZS)-CIR beschäftigt, um dieses Problem ohne die Verwendung vorab gesammelter Tripletten anzugehen. Dennoch zeigen die existierenden ZS-CIR-Methoden aufgrund des Mangels an Vielfalt der Eingabetexte während des Trainings eine begrenzte Skalierbarkeit und Generalisierungsfähigkeit des Backbones.Wir schlagen einen neuen CIR-Rahmen vor, der ausschließlich Sprache für das Training verwendet. Unser LinCIR (Language-only training for CIR) kann nur mit Textdatensätzen durch eine neuartige Selbstüberwachung namens Selbstmaskierungprojektion (Self-Masking Projection, SMP) trainiert werden. Wir projizieren die latente Texteinbettung in den Token-Einbettungsraum und erstellen einen neuen Text, indem wir die Schlüsselwort-Token des ursprünglichen Textes durch andere ersetzen. Anschließend lassen wir den neuen und den ursprünglichen Text denselben latenten Einbettungsvektor haben. Mit dieser einfachen Strategie ist LinCIR überraschend effizient und hochwirksam; LinCIR mit CLIP ViT-G Backbone wird in 48 Minuten trainiert und zeigt die besten ZS-CIR-Leistungen auf vier verschiedenen CIR-Benchmarks: CIRCO, GeneCIS, FashionIQ und CIRR – es übertrifft sogar die überwachten Methoden auf FashionIQ. Der Quellcode ist unter https://github.com/navervision/lincir verfügbar.