Weiterentwicklung der hochaufgelösten Video-Sprache-Repräsentation mit großskaligen Video-Transkriptionen

Wir untersuchen gemeinsame Vortrainierung von Video- und Sprachdaten (VL), um die Kreuzmodalkenntnis zu fördern und zahlreiche nachgelagerte VL-Aufgaben zu unterstützen. Bestehende Ansätze extrahieren entweder geringwertige Video-Features oder erlernen nur eingeschränkte Text-Embeddings, wobei sie übersehen, dass hochauflösende Videos und vielfältige Semantik die Kreuzmodalkenntnis erheblich verbessern können. In diesem Artikel stellen wir ein neuartiges Hochauflösendes und Diversifiziertes Video-Sprache-Vortrainierungsmodell (HD-VILA) für eine Vielzahl visueller Aufgaben vor. Insbesondere sammeln wir einen großen Datensatz mit zwei charakteristischen Eigenschaften: 1) dem ersten hochauflösenden Datensatz mit 371,5 Tausend Stunden Videos in 720p-Auflösung und 2) dem diversifiziertesten Datensatz, der 15 beliebte YouTube-Kategorien abdeckt. Um eine VL-Vortrainierung zu ermöglichen, optimieren wir das HD-VILA-Modell gemeinsam durch einen hybriden Transformer, der reichhaltige räumlich-zeitliche Merkmale lernt, und einen multimodalen Transformer, der die Interaktionen der gelernten Video-Features mit diversifizierten Texten erzwingt. Unser Vortrainierungsmodell erreicht neue SOTA-Ergebnisse in 10 VL-Verständnisaufgaben sowie in zwei neuen textgesteuerten visuellen Generierungsaufgaben. Beispielsweise übertrifft unser Ansatz SOTA-Modelle um 40,4 % (relativ) bei R@1 im zero-shot MSR-VTT-Text-zu-Video-Abfrage-Task und um 55,4 % im hochauflösenden Datensatz LSMDC. Die gelernten VL-Embeddings sind zudem effektiv bei der Generierung visuell ansprechender und semantisch relevanter Ergebnisse in textgesteuerten visuellen Bearbeitungs- und Super-Resolution-Aufgaben.