vor 17 Tagen

Eingefroren in der Zeit: Ein gemeinsamer Video- und Bildencoder für die End-to-End-Abfrage

Max Bain, Arsha Nagrani, Gül Varol, Andrew Zisserman

Abstract

Unser Ziel in dieser Arbeit ist die Video-Text-Retrieval-Aufgabe – insbesondere die Entwicklung einer gemeinsamen Einbettung, die eine effiziente Text-zu-Video-Retrieval-Operation ermöglicht. Zu den zentralen Herausforderungen in diesem Bereich gehören die Gestaltung der visuellen Architektur sowie die Beschaffenheit der Trainingsdaten: Die verfügbaren großen Video-Text-Trainingsdatensätze, wie beispielsweise HowTo100M, sind geräuschbehaftet, weshalb ein konkurrenzfähiges Leistungsniveau erst durch den Einsatz erheblicher Rechenressourcen bei großer Skalierung erreichbar ist. In dieser Arbeit adressieren wir beide Herausforderungen. Wir stellen ein end-to-end trainierbares Modell vor, das darauf ausgelegt ist, sowohl große Bild- als auch Video-Kommentar-Datensätze optimal zu nutzen. Unser Modell basiert auf einer Anpassung und Erweiterung der jüngsten Architekturen ViT und Timesformer und verfügt über Aufmerksamkeit sowohl im Raum als auch in der Zeit. Die Architektur ist flexibel und kann sowohl auf Bild- als auch auf Video-Text-Datensätzen unabhängig voneinander oder gemeinsam trainiert werden. Der Trainingsprozess erfolgt gemäß einem Curriculum-Learning-Schema, bei dem zunächst Bilder als „eingefrorene“ Zeitpunkte von Videos betrachtet werden, um dann schrittweise die Fähigkeit zu erlernen, zunehmend zeitliche Kontextinformationen zu berücksichtigen, wenn das Modell auf Video-Datensätzen trainiert wird. Zudem präsentieren wir einen neuen Video-Text-Pretraining-Datensatz namens WebVid-2M, der aus über zwei Millionen Videos mit schwach annotierten Beschreibungen besteht, die aus dem Internet extrahiert wurden. Trotz der Verwendung von Datensätzen, die um eine Größenordnung kleiner sind, erreichen wir mit diesem Ansatz state-of-the-art Ergebnisse auf etablierten Benchmark-Aufgaben für Video-Retrieval, darunter MSR-VTT, MSVD, DiDeMo und LSMDC.