HyperAIHyperAI

Command Palette

Search for a command to run...

VTG-GPT : Ancrage temporel vidéo sans apprentissage supervisé et sans ajustement avec GPT

Yifang Xu Yunzhuo Sun Zien Xie Benxiang Zhai Sidan Du

Résumé

Le positionnement temporel vidéo (VTG) vise à localiser des segments temporels spécifiques dans une vidéo non tronquée en fonction d'une requête linguistique. La plupart des modèles de VTG existants sont formés sur de nombreuses paires vidéo-texte annotées, un processus qui introduit non seulement les biais humains issus des requêtes mais entraîne également des coûts informatiques importants. Pour relever ces défis, nous proposons VTG-GPT, une méthode basée sur GPT pour le positionnement temporel vidéo sans apprentissage ni réglage fin. Afin de réduire les préjugés contenus dans la requête originale, nous utilisons Baichuan2 pour générer des requêtes débiaisées. Pour diminuer l'information redondante dans les vidéos, nous appliquons MiniGPT-v2 pour transformer le contenu visuel en légendes plus précises. Enfin, nous concevons un générateur de propositions et un post-traitement afin de produire des segments précis à partir des requêtes débiaisées et des légendes d'images. De nombreux expériences montrent que VTG-GPT dépasse considérablement les méthodes de pointe (SOTA) dans les configurations sans apprentissage et surpasse les approches non supervisées. Plus remarquable encore, il atteint une performance compétitive comparable à celle des méthodes supervisées. Le code est disponible sur https://github.com/YoucanBaby/VTG-GPT


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp