HyperAIHyperAI
il y a 2 mois

CLIP-It ! Résumé de Vidéo Guidé par le Langage

Medhini Narasimhan; Anna Rohrbach; Trevor Darrell
CLIP-It ! Résumé de Vidéo Guidé par le Langage
Résumé

Un résumé vidéo générique est une version abrégée d'une vidéo qui transmet l'ensemble de l'histoire et met en avant les scènes les plus importantes. Cependant, l'importance des scènes dans une vidéo est souvent subjective, et les utilisateurs devraient avoir la possibilité de personnaliser le résumé en utilisant un langage naturel pour spécifier ce qui est important pour eux. De plus, les modèles existants pour la synthèse automatique générique n'ont pas exploité les modèles linguistiques disponibles, qui peuvent servir de priorité efficace pour la saillance. Cette étude introduit CLIP-It, un cadre unique permettant d'aborder à la fois la synthèse vidéo générique et celle axée sur une requête, deux approches généralement traitées séparément dans la littérature. Nous proposons un transformateur multimodal guidé par le langage qui apprend à évaluer les images d'une vidéo en fonction de leur importance relative et de leur corrélation avec une requête définie par l'utilisateur (pour la synthèse axée sur une requête) ou une légende dense générée automatiquement (pour la synthèse vidéo générique). Notre modèle peut être étendu au cadre non supervisé en étant formé sans supervision basée sur des données véritables. Nous surpassons nettement les méthodes de base et les travaux antérieurs sur à la fois des jeux de données standard de synthèse vidéo (TVSum et SumMe) et un jeu de données de synthèse vidéo axée sur une requête (QFVS). En particulier, nous obtenons des améliorations significatives dans le cadre de transfert, témoignant ainsi des fortes capacités de généralisation de notre méthode.

CLIP-It ! Résumé de Vidéo Guidé par le Langage | Articles de recherche récents | HyperAI