MuLTI: Effizientes Verständnis von Video- und Sprache mit textgestütztem MultiWay-Sampler und Multi-Choice-Modellierung

Die Verarbeitung von Video- und Sprachdaten hat zahlreiche Anwendungen in der Industrie, wie beispielsweise Video-Fragenbeantwortung, Text-Video-Abfrage sowie mehrfach-label-Klassifikation. Herkömmliche Ansätze zur Video- und Sprachverarbeitung setzen typischerweise auf aufwändige multimodale Encoder und Feature-Fusionsmodule, was hohe Rechenkosten verursacht. Insbesondere erweisen sie sich als unzureichend bei der Behandlung dichter Videoframes oder langer Texte, die in industriellen Anwendungen weit verbreitet sind. In dieser Arbeit stellen wir MuLTI vor – ein hochgenaues und effizientes Modell zur Video- und Sprachverarbeitung, das eine effiziente und wirksame Feature-Fusion sowie eine schnelle Anpassung an nachgeschaltete Aufgaben ermöglicht. Konkret entwerfen wir einen Text-gesteuerten MultiWay-Sampler, der auf adaptiven Pooling-Residual-Mapping- und Self-Attention-Modulen basiert, um lange Sequenzen zu samplingen und multimodale Features zu fusionieren. Dadurch werden die Rechenkosten reduziert und die Leistungsabnahme durch frühere Sampling-Methoden vermieden. Somit kann MuLTI längere Sequenzen mit begrenzten Rechenressourcen verarbeiten. Um die Modellleistung weiter zu steigern und die Lücke bei der Vortrainingsaufgaben im Bereich der Video-Fragenbeantwortung zu schließen, führen wir eine neue Vortrainingsaufgabe namens Multiple Choice Modeling ein. Diese Aufgabe schließt die Lücke zwischen Vortrainings- und nachgeschalteten Aufgaben und verbessert die Fähigkeit des Modells, Video- und Textmerkmale korrekt auszurichten. Durch die effiziente Feature-Fusionskomponente und die neue Vortrainingsaufgabe erreicht MuLTI state-of-the-art Ergebnisse auf mehreren Datensätzen. Die Implementierung und die vortrainierten Modelle werden öffentlich bereitgestellt.