HyperAIHyperAI
vor 17 Tagen

CoLLM: Ein Großes Sprachmodell für die zusammengesetzte Bildretrieval

Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava
CoLLM: Ein Großes Sprachmodell für die zusammengesetzte Bildretrieval
Abstract

Composed Image Retrieval (CIR) ist eine anspruchsvolle Aufgabe, die darauf abzielt, Bilder basierend auf einer multimodalen Abfrage abzurufen. Typischerweise besteht der Trainingsdatensatz aus Triplets, die jeweils ein Referenzbild, eine textuelle Beschreibung gewünschter Änderungen und das Zielbild enthalten. Die Beschaffung solcher Daten ist kostspielig und zeitaufwendig. Aufgrund der Knappheit an CIR-Datensätzen wurden zero-shot-Ansätze entwickelt, die synthetische Triplets nutzen oder vision-sprachliche Modelle (VLMs) mit allgegenwärtigen, aus dem Web gecrawlten Bild-Text-Paaren heranziehen. Diese Methoden weisen jedoch erhebliche Grenzen auf: Synthetische Triplets leiden unter begrenzter Skalierung, geringer Vielfalt und unrealistischen Änderungstexten, während Bild-Text-Paare die gemeinsame Embedding-Lernung der multimodalen Abfrage behindern, da sie aufgrund des Fehlens von Triplets keine direkte Verbindung zwischen Referenzbild, Änderungstext und Zielbild herstellen können. Zudem haben bestehende Ansätze Schwierigkeiten bei komplexen und fein abgestuften Änderungstexten, die eine anspruchsvolle Fusion und Verständnis der visuellen und sprachlichen Modalitäten erfordern. Wir präsentieren CoLLM, einen integrierten Rahmen, der diese Herausforderungen effektiv adressiert. Unser Ansatz generiert Triplets dynamisch aus Bild-Text-Paaren und ermöglicht so eine überwachte Trainingsphase ohne manuelle Annotation. Wir nutzen große Sprachmodelle (LLMs), um gemeinsame Embeddings aus Referenzbildern und Änderungstexten zu erzeugen, was eine tiefere multimodale Fusion fördert. Zudem führen wir MTCIR ein, eine großskalige Datensammlung mit 3,4 Millionen Samples, und überarbeiten bestehende CIR-Benchmark-Datensätze (CIRR und Fashion-IQ), um die Zuverlässigkeit der Evaluation zu erhöhen. Experimentelle Ergebnisse zeigen, dass CoLLM eine state-of-the-art-Leistung auf mehreren CIR-Benchmarks und -Szenarien erzielt. MTCIR liefert wettbewerbsfähige Ergebnisse mit bis zu 15 % Verbesserung. Unsere verfeinerten Benchmarks liefern zuverlässigere Bewertungsmaße für CIR-Modelle und tragen somit zur Weiterentwicklung dieses wichtigen Forschungsfelds bei.