HyperAIHyperAI

Command Palette

Search for a command to run...

Eine empirische Studie zu End-to-End Video-Sprache-Transformern mit maskierter visueller Modellierung

Tsu-Jui Fu Linjie Li Zhe Gan Kevin Lin William Yang Wang Lijuan Wang Zicheng Liu

Zusammenfassung

Masked Visual Modeling (MVM) hat sich kürzlich als wirksam für die visuelle Vortrainierung erwiesen. Obwohl ähnliche rekonstruktive Ziele für Videoeingaben (z. B. masked frame modeling) in der Video-Sprache (VidL)-Vortrainierung untersucht wurden, gelang es früheren Studien nicht, eine wirklich effektive MVM-Strategie zu finden, die die Leistung in nachgeschalteten Aufgaben erheblich verbessert. In dieser Arbeit untersuchen wir systematisch das Potenzial von MVM im Kontext der VidL-Lernprozesse. Konkret basieren wir unsere Studie auf einem vollständig end-to-end VIdeO-LanguagE Transformer (VIOLET), bei dem die Supervision aus dem MVM-Training rückwärts auf den Pixelraum des Videos propagiert werden kann. Insgesamt werden acht verschiedene rekonstruktive Ziele des MVM untersucht, reichend von niedrigstufigen Pixelwerten und orientierten Gradienten bis hin zu hochstufigen Tiefenkarten, optischem Fluss, diskreten visuellen Tokens und latenten visuellen Merkmalen. Wir führen umfassende Experimente durch und liefern Erkenntnisse zu den Faktoren, die eine effektive MVM-Trainingsstrategie ermöglichen, was zu einem verbesserten Modell, VIOLETv2, führt. Empirisch zeigen wir, dass VIOLETv2, das mit dem MVM-Ziel vortrainiert wurde, signifikante Leistungssteigerungen auf 13 VidL-Benchmarks erzielt – von der Video-Fragebeantwortung und Video-Kommentierung bis hin zur Text-zu-Video-Abfrage.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp