Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts für trainingsfreie Zero-Shot-Zusammengesetzte Bildretrieval

Composed Image Retrieval (CIR) zielt darauf ab, Zielbilder zu finden, die einer Referenzbild nahekommen und gleichzeitig benutzerspezifische textuelle Änderungen integrieren, wodurch der Benutzerintention präziser Rechnung getragen wird. Bestehende trainingsfreie Zero-Shot-CIR-Methoden (ZS-CIR) verwenden oft einen zweistufigen Ansatz: Zunächst wird eine Beschreibung (Caption) für das Referenzbild generiert, gefolgt von einer Reasoning-Phase mittels Großer Sprachmodelle (Large Language Models), um eine Zielbeschreibung abzuleiten. Diese Methoden leiden jedoch unter fehlenden kritischen visuellen Details und begrenzten Reasoning-Fähigkeiten, was zu suboptimalen Retrieval-Ergebnissen führt. Um diese Herausforderungen anzugehen, stellen wir eine neuartige, trainingsfreie Einzelstufen-Methode vor: One-Stage Reflective Chain-of-Thought Reasoning for ZS-CIR (OSrCIR). Diese Methode nutzt Multimodale Große Sprachmodelle (Multimodal Large Language Models), um wesentliche visuelle Informationen in einem einzigen, integrierten Reasoning-Schritt zu bewahren und somit die Informationsverluste zu vermeiden, die bei zweistufigen Ansätzen auftreten. Der von uns vorgeschlagene Reflective Chain-of-Thought-Framework verbessert zudem die Interpretationsgenauigkeit, indem die Manipulationsabsicht mit kontextuellen Hinweisen aus dem Referenzbild abgestimmt wird. OSrCIR erreicht Leistungssteigerungen zwischen 1,80 % und 6,44 % gegenüber bestehenden trainingsfreien Methoden auf mehreren Aufgaben und etabliert neue SOTA-Ergebnisse im Bereich ZS-CIR, wodurch die Anwendbarkeit in vision-sprachlichen Anwendungen signifikant verbessert wird. Der Quellcode wird unter https://github.com/Pter61/osrcir2024/ verfügbar sein.