HyperAIHyperAI

Command Palette

Search for a command to run...

HiTeA: Hierarchische zeitliche Awareness-Videosprache-Vortrainierung

Qinghao Ye Guohai Xu Ming Yan Haiyang Xu Qi Qian Ji Zhang Fei Huang

Zusammenfassung

Die Vortrainierung von Video-Sprache hat die Leistung verschiedener nachgeschalteter Aufgaben im Bereich Video-Sprache erheblich verbessert. Allerdings übernehmen die meisten bisherigen Ansätze typische Paradigmen der Bild-Sprache-Vortrainierung direkt oder adaptieren sie lediglich für die Video-Sprache-Vortrainierung, wodurch das einzigartige Merkmal von Videos – die zeitliche Dimension – nicht ausreichend genutzt wird. In diesem Artikel stellen wir einen hierarchischen, zeitbewussten Framework für Video-Sprache-Vortrainierung, HiTeA, vor, der zwei neuartige Vortrainierungsaufgaben beinhaltet, um die cross-modale Ausrichtung zwischen Video-Momenten und Texten sowie die zeitlichen Beziehungen zwischen Video-Text-Paaren zu modellieren. Konkret schlagen wir eine cross-modale Moment-Explorationsaufgabe vor, die es ermöglicht, detaillierte Darstellungen von Video-Momenten zu erzeugen. Darüber hinaus erfassen wir die inhärenten zeitlichen Beziehungen, indem wir Video-Text-Paare auf unterschiedlichen zeitlichen Auflösungen als Ganzes ausrichten, wobei eine multi-modale zeitliche Beziehungs-Explorationsaufgabe eingesetzt wird. Zudem führen wir einen Shuffling-Test ein, um die zeitliche Abhängigkeit von Datensätzen und Vortrainierungsmodellen zu bewerten. Wir erzielen state-of-the-art-Ergebnisse auf 15 etablierten Aufgaben zur Video-Sprache-Verstehens- und -Generierung, insbesondere auf zeitlich ausgerichteten Datensätzen (z. B. SSv2-Template und SSv2-Label), wobei wir jeweils eine Verbesserung um 8,6 % und 11,1 % erreichen. HiTeA zeigt zudem eine starke Verallgemeinerungsfähigkeit, wenn es direkt auf nachgeschaltete Aufgaben im zero-shot-Modus übertragen wird. Die Modelle und eine Demo werden auf ModelScope verfügbar sein.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
HiTeA: Hierarchische zeitliche Awareness-Videosprache-Vortrainierung | Paper | HyperAI