vor 8 Tagen

VLM: aufgabenunabhängiges Vortrainieren von Video-Sprache-Modellen für die Video-Verständnis

Hu Xu, Gargi Ghosh, Po-Yao Huang, Prahal Arora, Masoumeh Aminzadeh, Christoph Feichtenhofer, Florian Metze, Luke Zettlemoyer

Details der Forschungsarbeit anzeigen

VLM: aufgabenunabhängiges Vortrainieren von Video-Sprache-Modellen für die Video-Verständnis

Abstract

Wir präsentieren einen vereinfachten, aufgabeunabhängigen Mehrmodalen-Vortrainingsansatz, der entweder Video- oder Texteingabe, oder beides gleichzeitig für eine Vielzahl von Endaufgaben akzeptiert. Bestehende Vortrainingsansätze sind auf bestimmte Aufgaben zugeschnitten, indem entweder ein einzelner Kreuzmodalitäten-Encoder verwendet wird, der beide Modalitäten erfordert und somit die Anwendung für retrieval-artige Endaufgaben einschränkt, oder komplexere Mehraufgaben-Lernverfahren mit zwei unimodalen Encodern, die eine frühe Kreuzmodalitäten-Fusion begrenzen. Stattdessen führen wir neue Vortrainings-Maskierungsstrategien ein, die eine bessere Mischung zwischen Modalitäten ermöglichen (z. B. durch das Erzwingen von Masken für Text, um die nächstgelegenen Video-Embeddings vorherzusagen), während gleichzeitig die Trennbarkeit gewahrt bleibt (z. B. werden manchmal unimodale Vorhersagen benötigt, ohne dass alle Eingabedaten verwendet werden). Experimentelle Ergebnisse zeigen eine herausragende Leistung über einen breiteren Aufgabenspektrum als alle vorherigen Methoden, wobei sie häufig sogar task-spezifisches Vortraining übertrifft. Der Quellcode ist unter https://github.com/pytorch/fairseq/tree/main/examples/MMPT verfügbar.