HyperAIHyperAI

Command Palette

Search for a command to run...

Datenroaming und Qualitätsbewertung für die Retrieval von zusammengesetzten Bildern

Matan Levy Rami Ben-Ari Nir Darshan Dani Lischinski

Zusammenfassung

Die Aufgabe der zusammengesetzten Bildsuche (Composed Image Retrieval, CoIR) besteht darin, Anfragen zu bearbeiten, die visuelle und textuelle Modalitäten kombinieren, wodurch Benutzer ihre Absichten effektiver ausdrücken können. Aktuelle CoIR-Datensätze sind jedoch um Größenordnungen kleiner als andere Datensätze im Bereich Vision und Sprache (Vision and Language, V&L). Zudem weisen einige dieser Datensätze bemerkenswerte Probleme auf, wie zum Beispiel redundante Modalitäten in den Anfragen. Um diese Mängel zu beheben, stellen wir den Large Scale Composed Image Retrieval (LaSCo)-Datensatz vor, einen neuen CoIR-Datensatz, der zehnmal größer ist als bestehende Datensätze. Die Vorabtrainings auf unserem LaSCo zeigen eine bemerkenswerte Leistungssteigerung, auch bei Zero-Shot-Szenarien. Des Weiteren schlagen wir einen neuen Ansatz zur Analyse von CoIR-Datensätzen und -Methoden vor, der Modalen Redundanz oder Notwendigkeit in Anfragen erkennt. Wir führen außerdem eine neue CoIR-Basislinie ein: den Cross-Attention getriebenen Shift Encoder (CASE). Diese Basislinie ermöglicht die frühe Fusion von Modalitäten durch ein Cross-Attention-Modul und setzt während des Trainings eine zusätzliche Nebenaufgabe ein. Unsere Experimente zeigen, dass diese neue Basislinie die aktuellen Standesmethoden (state-of-the-art methods) auf etablierten Benchmarks wie FashionIQ und CIRR übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp