il y a 2 mois

VTG-GPT : Ancrage temporel vidéo sans apprentissage supervisé et sans ajustement avec GPT

Yifang Xu; Yunzhuo Sun; Zien Xie; Benxiang Zhai; Sidan Du

Résumé

Le positionnement temporel vidéo (VTG) vise à localiser des segments temporels spécifiques dans une vidéo non tronquée en fonction d'une requête linguistique. La plupart des modèles de VTG existants sont formés sur de nombreuses paires vidéo-texte annotées, un processus qui introduit non seulement les biais humains issus des requêtes mais entraîne également des coûts informatiques importants. Pour relever ces défis, nous proposons VTG-GPT, une méthode basée sur GPT pour le positionnement temporel vidéo sans apprentissage ni réglage fin. Afin de réduire les préjugés contenus dans la requête originale, nous utilisons Baichuan2 pour générer des requêtes débiaisées. Pour diminuer l'information redondante dans les vidéos, nous appliquons MiniGPT-v2 pour transformer le contenu visuel en légendes plus précises. Enfin, nous concevons un générateur de propositions et un post-traitement afin de produire des segments précis à partir des requêtes débiaisées et des légendes d'images. De nombreux expériences montrent que VTG-GPT dépasse considérablement les méthodes de pointe (SOTA) dans les configurations sans apprentissage et surpasse les approches non supervisées. Plus remarquable encore, il atteint une performance compétitive comparable à celle des méthodes supervisées. Le code est disponible sur https://github.com/YoucanBaby/VTG-GPT