HyperAIHyperAI
vor 11 Tagen

ImageScope: Vereinheitlichung der sprachgesteuerten Bildretrieval mittels kollektiver Schlussfolgerung großer multimodaler Modelle

Pengfei Luo, Jingbo Zhou, Tong Xu, Yuan Xia, Linli Xu, Enhong Chen
ImageScope: Vereinheitlichung der sprachgesteuerten Bildretrieval mittels kollektiver Schlussfolgerung großer multimodaler Modelle
Abstract

Mit der Verbreitung von Bildern in Online-Inhalten ist in den vergangenen zehn Jahren die sprachgesteuerte Bildretrieval (Language-Guided Image Retrieval, LGIR) zu einem Forschungsschwerpunkt geworden und umfasst eine Vielzahl von Teilaspekten mit unterschiedlichen Eingabemodi. Obwohl die Entwicklung großer multimodaler Modelle (Large Multimodal Models, LMMs) diese Aufgaben erheblich erleichtert hat, werden bestehende Ansätze oft isoliert behandelt, wodurch für jede Aufgabe jeweils ein eigenständiges System aufgebaut werden muss. Dies erhöht nicht nur die Systemkomplexität und die Wartungskosten, sondern verstärkt auch die Herausforderungen, die sich aus sprachlicher Ambiguität und komplexen Bildinhalten ergeben, wodurch es für Retrieval-Systeme schwierig wird, genaue und zuverlässige Ergebnisse zu liefern. Hierfür schlagen wir ImageScope vor – einen trainingsfreien, dreistufigen Rahmen, der kollektives Schlussfolgern nutzt, um LGIR-Aufgaben zu vereinheitlichen. Der zentrale Ansatz der Vereinheitlichung beruht auf der kompositionellen Natur der Sprache, die diverse LGIR-Aufgaben in einen allgemeinen Text-zu-Bild-Retrieval-Prozess transformiert, wobei die Schlussfolgerungsfähigkeit von LMMs als universelle Validierung dient, um die Ergebnisse zu verfeinern. Genauer gesagt, verbessern wir in der ersten Stufe die Robustheit des Rahmens durch die Synthese von Suchabsichten auf unterschiedlichen Ebenen der semantischen Granularität mittels Chain-of-Thought (CoT)-Schlussfolgerung. In den zweiten und dritten Stufen analysieren wir anschließend die Retrieval-Ergebnisse, indem wir prädikative Aussagen lokal überprüfen und global paarweise Bewertungen durchführen. Experimente an sechs LGIR-Datensätzen zeigen, dass ImageScope gegenüber konkurrierenden Baselines übertrifft. Umfassende Evaluierungen und Ablationsstudien bestätigen zudem die Wirksamkeit unseres Entwurfs.

ImageScope: Vereinheitlichung der sprachgesteuerten Bildretrieval mittels kollektiver Schlussfolgerung großer multimodaler Modelle | Neueste Forschungsarbeiten | HyperAI