HyperAIHyperAI
il y a 2 mois

UniVTG : Vers une unification de l'ancrage temporel vidéo-langue

Lin, Kevin Qinghong ; Zhang, Pengchuan ; Chen, Joya ; Pramanick, Shraman ; Gao, Difei ; Wang, Alex Jinpeng ; Yan, Rui ; Shou, Mike Zheng
UniVTG : Vers une unification de l'ancrage temporel vidéo-langue
Résumé

Le Positionnement Temporel Vidéo (VTG), qui vise à localiser des séquences cibles dans des vidéos (comme des intervalles consécutifs ou des plans disjoints) en fonction de requêtes linguistiques personnalisées (par exemple, des phrases ou des mots), est essentiel pour la navigation vidéo sur les réseaux sociaux. La plupart des méthodes dans ce domaine développent des modèles spécifiques à la tâche qui sont formés avec des étiquettes spécifiques au type, telles que la recherche d'intervalles temporels (intervalle de temps) et la détection de points forts (courbe de pertinence), ce qui limite leur capacité à généraliser à diverses tâches et étiquettes VTG. Dans cet article, nous proposons de unifier les différentes étiquettes et tâches VTG, appelée UniVTG, selon trois axes :Premièrement, nous reprenons une large gamme d'étiquettes et de tâches VTG et définissons une formulation unifiée. Sur cette base, nous élaborons des schémas d'annotation de données pour créer une supervision pseudo-étendue.Deuxièmement, nous développons un modèle de positionnement efficace et flexible capable de traiter chaque tâche et d'exploiter pleinement chaque étiquette.Troisièmement, grâce au cadre unifié, nous sommes en mesure de libérer l'apprentissage préalable du positionnement temporel à partir d'étiquettes diverses et à grande échelle, permettant ainsi le développement de capacités de positionnement plus robustes, par exemple le positionnement zéro-shot.Des expériences approfondies sur trois tâches (recherche d'intervalles temporels, détection de points forts et résumé vidéo) sur sept jeux de données (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum et QFVS) démontrent l'efficacité et la flexibilité du cadre proposé. Les codes sont disponibles sur https://github.com/showlab/UniVTG.

UniVTG : Vers une unification de l'ancrage temporel vidéo-langue | Articles de recherche récents | HyperAI