Zero-Shot Componierte Text-Bild-Retrieval

In dieser Arbeit betrachten wir das Problem der zusammengesetzten Bildsuche (Composed Image Retrieval, CIR). Ziel ist es, ein Modell zu trainieren, das multimodale Informationen, wie Text und Bilder, zusammenführt, um Bilder präzise abzurufen, die der Abfrage entsprechen und somit die Ausdrucksfähigkeit des Benutzers erweitert. Wir leisten folgende Beiträge: (i) Wir initiieren einen skalierbaren Pipeline zur automatischen Erstellung von Datensätzen für das Training des CIR-Modells, indem wir einfach einen großen Datensatz von Bild-Text-Paaren nutzen, z.B. eine Teilmenge von LAION-5B; (ii) Wir stellen ein transformerbasiertes adaptives Aggregationsmodell vor, TransAgg genannt, das ein einfaches und effizientes Fusionsmechanismus verwendet, um Informationen aus verschiedenen Modalitäten anpassungsfähig zu kombinieren; (iii) Wir führen umfangreiche Abstraktionsstudien durch, um die Nützlichkeit unseres vorgeschlagenen Verfahrens zur Datenkonstruktion sowie die Effektivität der Kernkomponenten in TransAgg zu untersuchen; (iv) Bei der Evaluation auf öffentlich verfügbaren Benchmarks unter dem Szenario ohne vorherige Anpassung (zero-shot), d.h. beim Training auf den automatisch erstellten Datensätzen und anschließenden direkten Inferenz auf Ziel-Datensätzen im Downstream-Bereich wie CIRR und FashionIQ, erreicht unser vorgeschlagener Ansatz entweder vergleichbare oder deutlich bessere Ergebnisse als die bisherigen besten Modelle (state-of-the-art, SOTA). Projektseite: https://code-kunkun.github.io/ZS-CIR/