il y a 2 mois

Localisation de moments dans des vidéos longues via une guidance multimodale

Barrios, Wayner ; Soldan, Mattia ; Ceballos-Arroyo, Alberto Mario ; Heilbron, Fabian Caba ; Ghanem, Bernard

Résumé

L'introduction récente des grands ensembles de données à long format MAD et Ego4D a permis aux chercheurs d'examiner les performances des méthodes actuelles de pointe pour l'ancrage vidéo dans un contexte à long format, avec des résultats intéressants : les méthodes d'ancrage actuelles échouent seules à relever ce défi et à s'adapter à ce contexte en raison de leur incapacité à traiter des séquences vidéo longues. Dans cet article, nous proposons une méthode pour améliorer les performances de l'ancrage du langage naturel dans les vidéos longues en identifiant et en éliminant les fenêtres non décrivables. Nous concevons un cadre d'ancrage guidé composé d'un modèle de guidance et d'un modèle d'ancrage de base. Le modèle de guidance met l'accent sur les fenêtres décrivables, tandis que le modèle d'ancrage de base analyse des fenêtres temporelles courtes pour déterminer quels segments correspondent exactement à une requête linguistique donnée. Nous présentons deux conceptions pour le modèle de guidance : Query-Agnostic (indépendant de la requête) et Query-Dependent (dépendant de la requête), qui équilibrent efficacité et précision. Les expériences montrent que notre méthode proposée surpassent les modèles d'état de l'art respectivement de 4,1 % sur MAD et de 4,52 % sur Ego4D (NLQ). Le code, les données et les caractéristiques audio nécessaires pour reproduire nos expériences sont disponibles à l'adresse suivante : https://github.com/waybarrios/guidance-based-video-grounding.