vor 17 Tagen

Langform-Videosprache-Vortrainierung mit multimodaler zeitlicher kontrastiver Lernung

Yuchong Sun, Hongwei Xue, Ruihua Song, Bei Liu, Huan Yang, Jianlong Fu

Abstract

Großskalige Video-Sprache-Vortrainierung hat erhebliche Fortschritte bei Aufgaben zur Verständnis von Video-Sprache gezeigt. Bisherige Studien zur Video-Sprache-Vortrainierung konzentrieren sich hauptsächlich auf Kurzform-Videos (d. h. innerhalb von 30 Sekunden) und Sätze, wodurch die Vortrainierung für Langform-Videos kaum erforscht wurde. Die direkte Lernung von Repräsentationen aus Langform-Videos und Sprache könnte zahlreiche Aufgaben im Bereich des Verständnisses von Langform-Videos und Sprache unterstützen. Allerdings ist dies aufgrund der Schwierigkeit, langfristige Beziehungen zu modellieren, sowie der hohen Rechenbelastung durch eine größere Anzahl an Frames herausfordernd. In diesem Paper stellen wir einen Long-Form VIdeo-LAnguage-Vortrainierungsmodell (LF-VILA) vor und trainieren ihn auf einem großskaligen Datensatz aus Langform-Videos und Absätzen, der aus einem bestehenden öffentlichen Datensatz konstruiert wurde. Um die reiche zeitliche Dynamik effektiv zu erfassen und Video- und Sprachinformationen auf effiziente, end-to-end-Weise besser zu alignen, führen wir zwei neuartige Entwürfe in unserem LF-VILA-Modell ein. Zunächst schlagen wir eine Multimodale Zeitliche Kontrastive (MTC) Verlustfunktion vor, um zeitliche Beziehungen zwischen verschiedenen Modalitäten zu lernen, indem feinabgestimmte Alignment zwischen Langform-Videos und Absätzen gefördert wird. Zweitens präsentieren wir einen Hierarchischen Zeitfenster-Attention-Mechanismus (HTWA), der langfristige Abhängigkeiten effizient erfassen und gleichzeitig die Rechenkosten im Transformer reduzieren kann. Wir feintunen das vortrainierte LF-VILA-Modell auf sieben aufgabenbezogenen Aufgaben im Bereich des Verständnisses von Langform-Videos und Sprache, darunter Absatz-zu-Video-Recherche und Langform-Video-Fragebeantwortung, und erreichen dabei neue SOTA-Leistungen. Insbesondere erzielt unser Modell eine relative Verbesserung um 16,1 % beim ActivityNet-Absatz-zu-Video-Recherche-Aufgaben und um 2,4 % beim How2QA-Aufgaben. Wir stellen unseren Code, den Datensatz sowie die vortrainierten Modelle unter https://github.com/microsoft/XPretrain zur Verfügung.