vor 7 Tagen

HiTeA: Hierarchische zeitliche Awareness-Videosprache-Vortrainierung

Qinghao Ye, Guohai Xu, Ming Yan, Haiyang Xu, Qi Qian, Ji Zhang, Fei Huang

Abstract

Die Vortrainierung von Video-Sprache hat die Leistung verschiedener nachgeschalteter Aufgaben im Bereich Video-Sprache erheblich verbessert. Allerdings übernehmen die meisten bisherigen Ansätze typische Paradigmen der Bild-Sprache-Vortrainierung direkt oder adaptieren sie lediglich für die Video-Sprache-Vortrainierung, wodurch das einzigartige Merkmal von Videos – die zeitliche Dimension – nicht ausreichend genutzt wird. In diesem Artikel stellen wir einen hierarchischen, zeitbewussten Framework für Video-Sprache-Vortrainierung, HiTeA, vor, der zwei neuartige Vortrainierungsaufgaben beinhaltet, um die cross-modale Ausrichtung zwischen Video-Momenten und Texten sowie die zeitlichen Beziehungen zwischen Video-Text-Paaren zu modellieren. Konkret schlagen wir eine cross-modale Moment-Explorationsaufgabe vor, die es ermöglicht, detaillierte Darstellungen von Video-Momenten zu erzeugen. Darüber hinaus erfassen wir die inhärenten zeitlichen Beziehungen, indem wir Video-Text-Paare auf unterschiedlichen zeitlichen Auflösungen als Ganzes ausrichten, wobei eine multi-modale zeitliche Beziehungs-Explorationsaufgabe eingesetzt wird. Zudem führen wir einen Shuffling-Test ein, um die zeitliche Abhängigkeit von Datensätzen und Vortrainierungsmodellen zu bewerten. Wir erzielen state-of-the-art-Ergebnisse auf 15 etablierten Aufgaben zur Video-Sprache-Verstehens- und -Generierung, insbesondere auf zeitlich ausgerichteten Datensätzen (z. B. SSv2-Template und SSv2-Label), wobei wir jeweils eine Verbesserung um 8,6 % und 11,1 % erreichen. HiTeA zeigt zudem eine starke Verallgemeinerungsfähigkeit, wenn es direkt auf nachgeschaltete Aufgaben im zero-shot-Modus übertragen wird. Die Modelle und eine Demo werden auf ModelScope verfügbar sein.