il y a 2 mois

UnLoc : Un cadre unifié pour les tâches de localisation vidéo

Shen Yan; Xuehan Xiong; Arsha Nagrani; Anurag Arnab; Zhonghao Wang; Weina Ge; David Ross; Cordelia Schmid

Résumé

Bien que des modèles préentraînés à grande échelle tels que CLIP aient été utilisés pour de multiples tâches au niveau vidéo sur des vidéos tronquées, leur utilisation pour la localisation temporelle dans des vidéos non tronquées reste une tâche relativement peu explorée. Nous avons conçu une nouvelle approche pour cela, appelée UnLoc, qui utilise des tours d'images et de texte préentraînées, et alimente des jetons à un modèle de fusion vidéo-texte. La sortie du module de fusion est ensuite utilisée pour construire une pyramide de caractéristiques où chaque niveau est connecté à une tête pour prédire un score de pertinence par frame et les déplacements de temps de début/fin. Contrairement aux travaux précédents, notre architecture permet la Récupération d'Intervalles (Moment Retrieval), la Localisation Temporelle et le Segmentage d'Actions avec un modèle mono-étape, sans nécessiter de propositions d'actions, de caractéristiques préentraînées basées sur le mouvement ou de masquage de représentation. Contrairement aux modèles spécialisés, nous obtenons des résultats d'état de l'art sur les trois tâches différentes de localisation avec une approche unifiée. Le code sera disponible à l'adresse suivante : \url{https://github.com/google-research/scenic}.