HyperAIHyperAI
il y a 7 jours

HiTeA : Pré-entraînement vidéo-langage hiérarchique conscient du temps

Qinghao Ye, Guohai Xu, Ming Yan, Haiyang Xu, Qi Qian, Ji Zhang, Fei Huang
HiTeA : Pré-entraînement vidéo-langage hiérarchique conscient du temps
Résumé

La pré-formation vidéo-langage a permis d'améliorer les performances de nombreuses tâches vidéo-langage en aval. Toutefois, la plupart des méthodes précédentes héritent directement ou s'adaptent aux paradigmes classiques de pré-formation image-langage pour les appliquer à la vidéo-langage, ne tirant ainsi pas pleinement parti de la caractéristique unique de la vidéo, à savoir la dimension temporelle. Dans cet article, nous proposons un cadre de pré-formation vidéo-langage hiérarchique et conscient du temps, appelé HiTeA, accompagné de deux nouvelles tâches de pré-formation visant à modéliser l’alignement intermodal entre les moments vidéo et les textes, ainsi que les relations temporelles au sein des paires vidéo-texte. Plus précisément, nous introduisons une tâche d’exploration intermodale des moments pour identifier et représenter de manière fine les moments clés dans les vidéos, aboutissant à des représentations vidéo enrichies. Par ailleurs, les relations temporelles intrinsèques sont capturées en alignant les paires vidéo-texte dans leur ensemble à différentes résolutions temporelles, grâce à une tâche d’exploration des relations temporelles multimodales. En outre, nous proposons un test de permutation (shuffling test) afin d’évaluer le degré de dépendance temporelle des jeux de données et des modèles de pré-formation vidéo-langage. Nos expériences montrent que HiTeA atteint des résultats de pointe sur 15 tâches bien établies d’analyse et de génération vidéo-langage, notamment sur des jeux de données orientés temporellement (par exemple, SSv2-Template et SSv2-Label), avec des améliorations respectives de 8,6 % et 11,1 %. HiTeA démontre également une forte capacité de généralisation lorsqu’il est transféré directement à des tâches en aval en mode zero-shot. Les modèles et une démonstration seront disponibles sur ModelScope.