HyperAIHyperAI

Command Palette

Search for a command to run...

SimVTP: Einfache Video-Text-Vortrainierung mit maskierten Autoencodern

Yue Ma Tianyu Yang Yin Shan Xiu Li

Zusammenfassung

Diese Arbeit präsentiert SimVTP: einen einfachen Video-Text-Vortrainierungsansatz mittels maskierter Autoencoder. Wir maskieren zufällig räumlich-zeitliche Tuben im Eingabevideo sowie Worttoken im Eingabetext und geben diese dann in einen einheitlichen Autoencoder ein, um die fehlenden Pixel und Wörter wiederherzustellen. SimVTP weist mehrere charakteristische Eigenschaften auf: 1) Durch den einheitlichen Autoencoder kann SimVTP das maskierte Signal einer Modalität mit Hilfe der anderen Modalität rekonstruieren, wodurch implizit eine Kreuzmodalitätsausrichtung zwischen Video-Tuben und Text-Token gelernt wird. 2) SimVTP profitiert nicht nur von einer hohen Video-Maskierungsrate (z. B. 90 %), bedingt durch die zeitliche Redundanz im Video, sondern benötigt auch eine hohe Text-Maskierungsrate (z. B. 75 %), die deutlich höher ist als bei BERT (z. B. 15 %), um optimale Leistung zu erzielen. Dies liegt daran, dass die Unterstützung durch die Video-Modalität die Rekonstruktion von Text erleichtert, wodurch eine höhere Maskierungsrate erforderlich ist, um die Vorabgabenstellung für die nützliche Merkmalslernen anspruchsvoller zu gestalten. 3) Die Kombination von SimVTP mit Video-Text-Kontrastiv-Lernen (VTC) und Video-Text-Übereinstimmung (VTM), zwei gängigen Strategien für Kreuzmodalitäts-Training, führt zu einer signifikanten Verbesserung der transferierbaren Leistung. 4) SimVTP ist dateneffizient: So erreicht es bereits bei der Vortrainierung nur auf 10 % der Daten von WebVid-2M beachtliche Ergebnisse (43,8 R@1) auf MSRVTT – weit über den Leistungen aktueller State-of-the-Art-Methoden, die auf sowohl CC3M als auch WebVid-2M trainiert wurden. Wir übertragen unser vortrainiertes Modell auf verschiedene Downstream-Aufgaben und erzielen hervorragende Ergebnisse. Der Quellcode und die Modelle werden unter https://github.com/mayuelala/SimVTP veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp