HyperAIHyperAI

Command Palette

Search for a command to run...

VLM: aufgabenunabhängiges Vortrainieren von Video-Sprache-Modellen für die Video-Verständnis

Hu Xu Gargi Ghosh Po-Yao Huang Prahal Arora Masoumeh Aminzadeh Christoph Feichtenhofer Florian Metze Luke Zettlemoyer

Zusammenfassung

Wir präsentieren einen vereinfachten, aufgabeunabhängigen Mehrmodalen-Vortrainingsansatz, der entweder Video- oder Texteingabe, oder beides gleichzeitig für eine Vielzahl von Endaufgaben akzeptiert. Bestehende Vortrainingsansätze sind auf bestimmte Aufgaben zugeschnitten, indem entweder ein einzelner Kreuzmodalitäten-Encoder verwendet wird, der beide Modalitäten erfordert und somit die Anwendung für retrieval-artige Endaufgaben einschränkt, oder komplexere Mehraufgaben-Lernverfahren mit zwei unimodalen Encodern, die eine frühe Kreuzmodalitäten-Fusion begrenzen. Stattdessen führen wir neue Vortrainings-Maskierungsstrategien ein, die eine bessere Mischung zwischen Modalitäten ermöglichen (z. B. durch das Erzwingen von Masken für Text, um die nächstgelegenen Video-Embeddings vorherzusagen), während gleichzeitig die Trennbarkeit gewahrt bleibt (z. B. werden manchmal unimodale Vorhersagen benötigt, ohne dass alle Eingabedaten verwendet werden). Experimentelle Ergebnisse zeigen eine herausragende Leistung über einen breiteren Aufgabenspektrum als alle vorherigen Methoden, wobei sie häufig sogar task-spezifisches Vortraining übertrifft. Der Quellcode ist unter https://github.com/pytorch/fairseq/tree/main/examples/MMPT verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp