HyperAIHyperAI

Command Palette

Search for a command to run...

Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts für trainingsfreie Zero-Shot-Zusammengesetzte Bildretrieval

Yuanmin Tang Xiaoting Qin Jue Zhang Jing Yu Gaopeng Gou Gang Xiong Qingwei Ling Saravan Rajmohan Dongmei Zhang Qi Wu

Zusammenfassung

Composed Image Retrieval (CIR) zielt darauf ab, Zielbilder zu finden, die einer Referenzbild nahekommen und gleichzeitig benutzerspezifische textuelle Änderungen integrieren, wodurch der Benutzerintention präziser Rechnung getragen wird. Bestehende trainingsfreie Zero-Shot-CIR-Methoden (ZS-CIR) verwenden oft einen zweistufigen Ansatz: Zunächst wird eine Beschreibung (Caption) für das Referenzbild generiert, gefolgt von einer Reasoning-Phase mittels Großer Sprachmodelle (Large Language Models), um eine Zielbeschreibung abzuleiten. Diese Methoden leiden jedoch unter fehlenden kritischen visuellen Details und begrenzten Reasoning-Fähigkeiten, was zu suboptimalen Retrieval-Ergebnissen führt. Um diese Herausforderungen anzugehen, stellen wir eine neuartige, trainingsfreie Einzelstufen-Methode vor: One-Stage Reflective Chain-of-Thought Reasoning for ZS-CIR (OSrCIR). Diese Methode nutzt Multimodale Große Sprachmodelle (Multimodal Large Language Models), um wesentliche visuelle Informationen in einem einzigen, integrierten Reasoning-Schritt zu bewahren und somit die Informationsverluste zu vermeiden, die bei zweistufigen Ansätzen auftreten. Der von uns vorgeschlagene Reflective Chain-of-Thought-Framework verbessert zudem die Interpretationsgenauigkeit, indem die Manipulationsabsicht mit kontextuellen Hinweisen aus dem Referenzbild abgestimmt wird. OSrCIR erreicht Leistungssteigerungen zwischen 1,80 % und 6,44 % gegenüber bestehenden trainingsfreien Methoden auf mehreren Aufgaben und etabliert neue SOTA-Ergebnisse im Bereich ZS-CIR, wodurch die Anwendbarkeit in vision-sprachlichen Anwendungen signifikant verbessert wird. Der Quellcode wird unter https://github.com/Pter61/osrcir2024/ verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp