LDRE: LLM-basierte divergente Reasoning und Ensemble für zero-shot komponierte Bildretrieval
Zero-Shot Composed Image Retrieval (ZS-CIR) hat in den letzten Jahren zunehmend an Aufmerksamkeit gewonnen und zielt darauf ab, ein Zielbild basierend auf einer Abfrage zu finden, die aus einem Referenzbild und einem Modifikationstext besteht, ohne dass dafür Trainingsbeispiele erforderlich sind. Insbesondere beschreibt der Modifikationstext den Unterschied zwischen den beiden Bildern. Um ZS-CIR durchzuführen, verwenden die gängigen Methoden vortrainierte Bild-zu-Text-Modelle, um das Abfragebild und den Text in einen gemeinsamen Text zu transformieren, der anschließend mithilfe von CLIP in den gemeinsamen Merkmalsraum projiziert wird, um das Zielbild zu retrieven. Diese Ansätze vernachlässigen jedoch, dass ZS-CIR eine typische unscharfe Retrieval-Aufgabe ist, bei der die Semantik des Zielbildes nicht strikt durch das Abfragebild und den Text definiert ist. Um diese Einschränkung zu überwinden, schlagen wir in diesem Artikel eine trainingssystemfreie, auf großen Sprachmodellen (LLM) basierende Methode namens Divergent Reasoning and Ensemble (LDRE) für ZS-CIR vor, um eine Vielzahl möglicher Semantiken des zusammengesetzten Ergebnisses erfassen zu können. Zunächst nutzen wir ein vortrainiertes Captioning-Modell, um dichte Captionings für das Referenzbild zu generieren, wobei unterschiedliche semantische Perspektiven des Referenzbildes berücksichtigt werden. Anschließend nutzen wir große Sprachmodelle (LLMs), um divergente, zusammengesetzte Schlussfolgerungen auf Basis der dichten Captionings und des Modifikationstexts durchzuführen, wodurch divergente bearbeitete Captionings entstehen, die die möglichen Semantiken des zusammengesetzten Ziels abdecken. Schließlich entwerfen wir ein divergentes Caption-Ensemble, um ein ensemble-basiertes Caption-Merkmal zu erzeugen, das durch semantische Relevanzscores gewichtet wird. Dieses Merkmal wird schließlich im CLIP-Merkmalsraum verwendet, um das Zielbild zu retrieven. Umfassende Experimente auf drei öffentlichen Datensätzen zeigen, dass unsere vorgeschlagene LDRE die neue State-of-the-Art-Leistung erreicht.