RTQ: Eine Neubewertung der Video-Sprache-Verständnis basierend auf Bild-Text-Modellen

Neuere Fortschritte im Bereich der Video-Sprache-Verständnis basieren auf der Grundlage von Bild-Text-Modellen und erzielen vielversprechende Ergebnisse, da Bilder und Videos gemeinsame semantische Kenntnisse aufweisen. Dennoch stellt die Video-Sprache-Verständnis aufgrund der Einbeziehung hochkomplexer semantischer Details einzigartige Herausforderungen dar, die zu Informationsredundanz, zeitlicher Abhängigkeit und Szenenkomplexität führen. Aktuelle Ansätze haben diese Probleme nur teilweise adressiert, und unsere quantitative Analyse zeigt, dass einige dieser Methoden komplementär sind. In Anbetracht dessen schlagen wir einen neuen Ansatz namens RTQ (Refine, Temporal model, and Query) vor, der diese Herausforderungen gleichzeitig bewältigt. Unser Ansatz umfasst die Verfeinerung redundanter Informationen innerhalb der Frame-Daten, die Modellierung zeitlicher Beziehungen zwischen Frames sowie die Abfrage von aufgabe-spezifischen Informationen aus den Videos. Bemerkenswerterweise erzielt unser Modell herausragende Leistung auch ohne Video-Sprache-Vortrainierung, wobei die Ergebnisse mit oder sogar über denen der aktuellen State-of-the-Art-Vortrainingsmethoden liegen. Der Quellcode ist unter https://github.com/SCZwangxiao/RTQ-MM2023 verfügbar.