HyperAIHyperAI

Command Palette

Search for a command to run...

UnLoc : Un cadre unifié pour les tâches de localisation vidéo

Shen Yan; Xuehan Xiong; Arsha Nagrani; Anurag Arnab; Zhonghao Wang; Weina Ge; David Ross; Cordelia Schmid

Résumé

Bien que des modèles préentraînés à grande échelle tels que CLIP aient été utilisés pour de multiples tâches au niveau vidéo sur des vidéos tronquées, leur utilisation pour la localisation temporelle dans des vidéos non tronquées reste une tâche relativement peu explorée. Nous avons conçu une nouvelle approche pour cela, appelée UnLoc, qui utilise des tours d'images et de texte préentraînées, et alimente des jetons à un modèle de fusion vidéo-texte. La sortie du module de fusion est ensuite utilisée pour construire une pyramide de caractéristiques où chaque niveau est connecté à une tête pour prédire un score de pertinence par frame et les déplacements de temps de début/fin. Contrairement aux travaux précédents, notre architecture permet la Récupération d'Intervalles (Moment Retrieval), la Localisation Temporelle et le Segmentage d'Actions avec un modèle mono-étape, sans nécessiter de propositions d'actions, de caractéristiques préentraînées basées sur le mouvement ou de masquage de représentation. Contrairement aux modèles spécialisés, nous obtenons des résultats d'état de l'art sur les trois tâches différentes de localisation avec une approche unifiée. Le code sera disponible à l'adresse suivante : \url{https://github.com/google-research/scenic}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp