HyperAIHyperAI

Command Palette

Search for a command to run...

VindLU: Ein Rezept für eine effektive Video- und Sprach-Vortrainierung

Feng Cheng Xizi Wang Jie Lei David Crandall Mohit Bansal Gedas Bertasius

Zusammenfassung

In den letzten Jahren sind erhebliche Fortschritte im Bereich des Video-und-Sprache-(VidL)-Verständnisses erzielt worden. Dennoch basieren die meisten modernen VidL-Ansätze auf komplexen und spezialisierten Modellarchitekturen sowie auf anspruchsvollen Vortrainingsprotokollen, was die Reproduzierbarkeit, Analyse und Vergleichbarkeit dieser Frameworks erheblich erschweren. Daher präsentiert dieser Artikel statt einer neuen VidL-Modellarchitektur eine umfassende empirische Studie, die die wichtigsten Faktoren im Design von VidL-Modellen aufklärt. Unter den untersuchten Faktoren sind (i) die räumlich-zeitliche Architektur, (ii) die multimodale Fusion, (iii) die Vortrainingsziele, (iv) die Auswahl der Vortrainingsdaten, (v) die Vortrainings- und Feinabstimmungsprotokolle sowie (vi) die Skalierung von Datensätzen und Modellen. Unsere empirische Analyse zeigt, dass die entscheidenden Gestaltungsfaktoren folgende sind: die zeitliche Modellierung, die Video-zu-Text-multimodale Fusion, maskierte Modellierungsziele sowie das gemeinsame Training auf Bildern und Videos. Auf Basis dieser empirischen Erkenntnisse entwickeln wir eine schrittweise Anleitung, die wir VindLU nennen, zur effektiven Vortrainingsphase für VidL-Modelle. Mit dieser Vorgehensweise trainiertes Endmodell erreicht auf mehreren VidL-Aufgaben Ergebnisse, die mit oder sogar besser als die der derzeitigen State-of-the-Art-Methoden sind, ohne auf externe CLIP-Vortrainingsmodelle angewiesen zu sein. Insbesondere erzielt unser Ansatz auf der Text-zu-Video-Abfrage-Aufgabe 61,2 % auf DiDeMo und 55,0 % auf ActivityNet – jeweils um 7,8 % und 6,1 % besser als die aktuell beste Methode. Darüber hinaus erreicht unser Modell auch state-of-the-art-Ergebnisse im Bereich der Video-Fragenbeantwortung auf ActivityNet-QA, MSRVTT-QA, MSRVTT-MC und TVQA. Unsere Code-Implementierung und die vortrainierten Modelle sind öffentlich zugänglich unter: https://github.com/klauscc/VindLU.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp