HyperAIHyperAI
vor 17 Tagen

SimVTP: Einfache Video-Text-Vortrainierung mit maskierten Autoencodern

Yue Ma, Tianyu Yang, Yin Shan, Xiu Li
SimVTP: Einfache Video-Text-Vortrainierung mit maskierten Autoencodern
Abstract

Diese Arbeit präsentiert SimVTP: einen einfachen Video-Text-Vortrainierungsansatz mittels maskierter Autoencoder. Wir maskieren zufällig räumlich-zeitliche Tuben im Eingabevideo sowie Worttoken im Eingabetext und geben diese dann in einen einheitlichen Autoencoder ein, um die fehlenden Pixel und Wörter wiederherzustellen. SimVTP weist mehrere charakteristische Eigenschaften auf: 1) Durch den einheitlichen Autoencoder kann SimVTP das maskierte Signal einer Modalität mit Hilfe der anderen Modalität rekonstruieren, wodurch implizit eine Kreuzmodalitätsausrichtung zwischen Video-Tuben und Text-Token gelernt wird. 2) SimVTP profitiert nicht nur von einer hohen Video-Maskierungsrate (z. B. 90 %), bedingt durch die zeitliche Redundanz im Video, sondern benötigt auch eine hohe Text-Maskierungsrate (z. B. 75 %), die deutlich höher ist als bei BERT (z. B. 15 %), um optimale Leistung zu erzielen. Dies liegt daran, dass die Unterstützung durch die Video-Modalität die Rekonstruktion von Text erleichtert, wodurch eine höhere Maskierungsrate erforderlich ist, um die Vorabgabenstellung für die nützliche Merkmalslernen anspruchsvoller zu gestalten. 3) Die Kombination von SimVTP mit Video-Text-Kontrastiv-Lernen (VTC) und Video-Text-Übereinstimmung (VTM), zwei gängigen Strategien für Kreuzmodalitäts-Training, führt zu einer signifikanten Verbesserung der transferierbaren Leistung. 4) SimVTP ist dateneffizient: So erreicht es bereits bei der Vortrainierung nur auf 10 % der Daten von WebVid-2M beachtliche Ergebnisse (43,8 R@1) auf MSRVTT – weit über den Leistungen aktueller State-of-the-Art-Methoden, die auf sowohl CC3M als auch WebVid-2M trainiert wurden. Wir übertragen unser vortrainiertes Modell auf verschiedene Downstream-Aufgaben und erzielen hervorragende Ergebnisse. Der Quellcode und die Modelle werden unter https://github.com/mayuelala/SimVTP veröffentlicht.