HyperAIHyperAI
vor 2 Monaten

Datenroaming und Qualitätsbewertung für die Retrieval von zusammengesetzten Bildern

Levy, Matan ; Ben-Ari, Rami ; Darshan, Nir ; Lischinski, Dani
Datenroaming und Qualitätsbewertung für die Retrieval von zusammengesetzten Bildern
Abstract

Die Aufgabe der zusammengesetzten Bildsuche (Composed Image Retrieval, CoIR) besteht darin, Anfragen zu bearbeiten, die visuelle und textuelle Modalitäten kombinieren, wodurch Benutzer ihre Absichten effektiver ausdrücken können. Aktuelle CoIR-Datensätze sind jedoch um Größenordnungen kleiner als andere Datensätze im Bereich Vision und Sprache (Vision and Language, V&L). Zudem weisen einige dieser Datensätze bemerkenswerte Probleme auf, wie zum Beispiel redundante Modalitäten in den Anfragen. Um diese Mängel zu beheben, stellen wir den Large Scale Composed Image Retrieval (LaSCo)-Datensatz vor, einen neuen CoIR-Datensatz, der zehnmal größer ist als bestehende Datensätze. Die Vorabtrainings auf unserem LaSCo zeigen eine bemerkenswerte Leistungssteigerung, auch bei Zero-Shot-Szenarien. Des Weiteren schlagen wir einen neuen Ansatz zur Analyse von CoIR-Datensätzen und -Methoden vor, der Modalen Redundanz oder Notwendigkeit in Anfragen erkennt. Wir führen außerdem eine neue CoIR-Basislinie ein: den Cross-Attention getriebenen Shift Encoder (CASE). Diese Basislinie ermöglicht die frühe Fusion von Modalitäten durch ein Cross-Attention-Modul und setzt während des Trainings eine zusätzliche Nebenaufgabe ein. Unsere Experimente zeigen, dass diese neue Basislinie die aktuellen Standesmethoden (state-of-the-art methods) auf etablierten Benchmarks wie FashionIQ und CIRR übertrifft.