vor 7 Tagen

VindLU: Ein Rezept für eine effektive Video- und Sprach-Vortrainierung

Feng Cheng, Xizi Wang, Jie Lei, David Crandall, Mohit Bansal, Gedas Bertasius

Abstract

In den letzten Jahren sind erhebliche Fortschritte im Bereich des Video-und-Sprache-(VidL)-Verständnisses erzielt worden. Dennoch basieren die meisten modernen VidL-Ansätze auf komplexen und spezialisierten Modellarchitekturen sowie auf anspruchsvollen Vortrainingsprotokollen, was die Reproduzierbarkeit, Analyse und Vergleichbarkeit dieser Frameworks erheblich erschweren. Daher präsentiert dieser Artikel statt einer neuen VidL-Modellarchitektur eine umfassende empirische Studie, die die wichtigsten Faktoren im Design von VidL-Modellen aufklärt. Unter den untersuchten Faktoren sind (i) die räumlich-zeitliche Architektur, (ii) die multimodale Fusion, (iii) die Vortrainingsziele, (iv) die Auswahl der Vortrainingsdaten, (v) die Vortrainings- und Feinabstimmungsprotokolle sowie (vi) die Skalierung von Datensätzen und Modellen. Unsere empirische Analyse zeigt, dass die entscheidenden Gestaltungsfaktoren folgende sind: die zeitliche Modellierung, die Video-zu-Text-multimodale Fusion, maskierte Modellierungsziele sowie das gemeinsame Training auf Bildern und Videos. Auf Basis dieser empirischen Erkenntnisse entwickeln wir eine schrittweise Anleitung, die wir VindLU nennen, zur effektiven Vortrainingsphase für VidL-Modelle. Mit dieser Vorgehensweise trainiertes Endmodell erreicht auf mehreren VidL-Aufgaben Ergebnisse, die mit oder sogar besser als die der derzeitigen State-of-the-Art-Methoden sind, ohne auf externe CLIP-Vortrainingsmodelle angewiesen zu sein. Insbesondere erzielt unser Ansatz auf der Text-zu-Video-Abfrage-Aufgabe 61,2 % auf DiDeMo und 55,0 % auf ActivityNet – jeweils um 7,8 % und 6,1 % besser als die aktuell beste Methode. Darüber hinaus erreicht unser Modell auch state-of-the-art-Ergebnisse im Bereich der Video-Fragenbeantwortung auf ActivityNet-QA, MSRVTT-QA, MSRVTT-MC und TVQA. Unsere Code-Implementierung und die vortrainierten Modelle sind öffentlich zugänglich unter: https://github.com/klauscc/VindLU.