Vision-by-Sprache für compositionsunabhängige Bildsuche ohne Training

Gegeben ein Bild und eine gewünschte Modifikation (z.B. ein Bild des Eiffelturms und der Text "ohne Menschen und zur Nachtzeit"), zielt die Kompositionale Bildsuche (Compositional Image Retrieval, CIR) darauf ab, das entsprechende Zielbild in einer Datenbank zu finden. Obwohl überwachte Ansätze auf der Annotation von Triplets basieren, was kostspielig ist (d.h. Abfragebild, textuelle Modifikation und Zielbild), umgehen jüngste Forschungen dieses Bedürfnis durch die Verwendung groß angelegter visueller Sprachmodelle (Vision-Language Models, VLMs) und führen Zero-Shot CIR (ZS-CIR) durch. Dennoch erfordern aktuelle Ansätze im ZS-CIR immer noch das Training spezifischer, angepasster Modelle mit großen Mengen an Bild-Text-Paaren. In dieser Arbeit schlagen wir vor, CIR auf eine trainingsfreie Weise durch unser Compositional Image Retrieval through Vision-by-Language (CIReVL) anzugehen. Dies ist ein einfacher, dennoch menschlich verständlicher und skalierbarer Prozess, der groß angelegte VLMs effektiv mit großen Sprachmodellen (Large Language Models, LLMs) kombiniert. Durch die Beschriftung des Referenzbildes mit einem vortrainierten generativen VLM und die Anweisung an ein LLM, die Beschriftung basierend auf der textuellen Ziellmodifikation neu zu komponieren, erreichen wir modulares Sprachverstehen für nachfolgende Suchvorgänge z.B. mittels CLIP. In vier Benchmarks für ZS-CIR erzielen wir wettbewerbsfähige, teilweise standesübliche Leistungen – wobei wir über überwachte Methoden hinaus verbessern. Darüber hinaus bietet die Modularität von CIReVL eine einfache Skalierung ohne erneutes Training, was es uns ermöglicht, Skalengesetze und Engpässe für ZS-CIR zu untersuchen und teilweise mehr als doppelt so gute Ergebnisse wie bisher berichtet zu erzielen. Schließlich zeigen wir, dass CIReVL CIR menschlich verständlich macht, indem es Bilder und Texte auf modulare Weise im Sprachbereich zusammenfügt und damit eingreifbar wird, was es ermöglicht, Fehlfälle nachträglich neu auszurichten. Der Code wird bei Annahme veröffentlicht werden.