HyperAIHyperAI
vor 2 Monaten

CoVR-2: Automatische Datenkonstruktion für die komponierte Videorecherche

Ventura, Lucas ; Yang, Antoine ; Schmid, Cordelia ; Varol, Gül
CoVR-2: Automatische Datenkonstruktion für die komponierte Videorecherche
Abstract

Composed Image Retrieval (CoIR) hat kürzlich als Aufgabe an Popularität gewonnen, die sowohl Text- als auch Bildabfragen zusammen berücksichtigt, um relevante Bilder in einer Datenbank zu suchen. Die meisten CoIR-Ansätze erfordern manuell annotierte Datensätze, die aus Bild-Text-Bild-Tripeln bestehen, wobei der Text eine Modifikation vom Abfragebild zum Zielbild beschreibt. Manuelle Kuration von CoIR-Tripeln ist jedoch kostspielig und behindert die Skalierbarkeit. In dieser Arbeit schlagen wir stattdessen eine skalierbare automatische Methodologie zur Erstellung von Datensätzen vor, die Tripel aus Video-Unterschrift-Paaren generiert und dabei den Umfang der Aufgabe auf komponierte Videorecherche (CoVR) erweitert. Zu diesem Zweck graben wir Video-Paare mit ähnlichen Unterschriften aus einer großen Datenbank heraus und nutzen ein großes Sprachmodell, um den entsprechenden Modifikationstext zu generieren. Durch Anwendung dieser Methodologie auf die umfangreiche WebVid2M-Sammlung konstruieren wir unser WebVid-CoVR-Datensatz automatisch, was 1,6 Millionen Tripel ergibt. Darüber hinaus führen wir eine neue Benchmark für CoVR ein, die ein manuell annotiertes Evaluationsset sowie Baseline-Ergebnisse umfasst. Wir verifizieren zudem, dass unsere Methodologie auch für Bild-Unterschrift-Paare gleichermaßen anwendbar ist, indem wir 3,3 Millionen CoIR-Trainings-Tripel unter Verwendung des Conceptual Captions-Datensatzes generieren. Unser Modell basiert auf der Vorabtrainierung von BLIP-2 und passt es an komponierte Videorecherche (oder Bildrecherche) an. Es integriert einen zusätzlichen Verlust für die Unterschriftrecherche, um zusätzliche Supervision über das Tripel hinaus zu nutzen. Wir führen umfassende Ablationstudien durch, um die Designentscheidungen auf unserer neuen CoVR-Benchmark zu analysieren. Unsere Experimente zeigen außerdem, dass das Training eines CoVR-Modells auf unseren Datensätzen effektiv auf CoIR übertragen wird und zu einer verbesserten Stand-of-the-Art-Leistung im Zero-Shot-Setup bei den Benchmarks CIRR, FashionIQ und CIRCO führt. Unser Code, unsere Datensätze und Modelle sind öffentlich verfügbar unter https://imagine.enpc.fr/~ventural/covr/.

CoVR-2: Automatische Datenkonstruktion für die komponierte Videorecherche | Neueste Forschungsarbeiten | HyperAI