HyperAIHyperAI

Command Palette

Search for a command to run...

Localisation de moments dans des vidéos longues via une guidance multimodale

Wayner Barrios Mattia Soldan Alberto Mario Ceballos-Arroyo Fabian Caba Heilbron Bernard Ghanem

Résumé

L'introduction récente des grands ensembles de données à long format MAD et Ego4D a permis aux chercheurs d'examiner les performances des méthodes actuelles de pointe pour l'ancrage vidéo dans un contexte à long format, avec des résultats intéressants : les méthodes d'ancrage actuelles échouent seules à relever ce défi et à s'adapter à ce contexte en raison de leur incapacité à traiter des séquences vidéo longues. Dans cet article, nous proposons une méthode pour améliorer les performances de l'ancrage du langage naturel dans les vidéos longues en identifiant et en éliminant les fenêtres non décrivables. Nous concevons un cadre d'ancrage guidé composé d'un modèle de guidance et d'un modèle d'ancrage de base. Le modèle de guidance met l'accent sur les fenêtres décrivables, tandis que le modèle d'ancrage de base analyse des fenêtres temporelles courtes pour déterminer quels segments correspondent exactement à une requête linguistique donnée. Nous présentons deux conceptions pour le modèle de guidance : Query-Agnostic (indépendant de la requête) et Query-Dependent (dépendant de la requête), qui équilibrent efficacité et précision. Les expériences montrent que notre méthode proposée surpassent les modèles d'état de l'art respectivement de 4,1 % sur MAD et de 4,52 % sur Ego4D (NLQ). Le code, les données et les caractéristiques audio nécessaires pour reproduire nos expériences sont disponibles à l'adresse suivante : https://github.com/waybarrios/guidance-based-video-grounding.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp