HyperAIHyperAI
il y a 2 mois

Tout moment compte : Étiquetage dense et détaillé des actions dans des vidéos complexes

Serena Yeung; Olga Russakovsky; Ning Jin; Mykhaylo Andriluka; Greg Mori; Li Fei-Fei
Tout moment compte : Étiquetage dense et détaillé des actions dans des vidéos complexes
Résumé

Chaque instant compte dans la reconnaissance d'actions. Une compréhension exhaustive des activités humaines dans les vidéos nécessite d'étiqueter chaque image en fonction des actions qui s'y déroulent, en plaçant plusieurs étiquettes de manière dense sur une séquence vidéo. Pour étudier ce problème, nous avons étendu le jeu de données existant THUMOS et introduit MultiTHUMOS, un nouveau jeu de données comprenant des étiquettes denses sur des vidéos internet non contraintes. La modélisation de multiples étiquettes denses bénéficie des relations temporelles intra- et inter-classes. Nous définissons une nouvelle variante de réseaux profonds à mémoire à court et long terme (LSTM) pour modéliser ces relations temporelles par le biais de connexions multiples en entrée et en sortie. Nous montrons que ce modèle améliore la précision de l'étiquetage des actions et permet également d'aborder des tâches de compréhension plus approfondie, allant de la recherche structurée à la prédiction des actions.

Tout moment compte : Étiquetage dense et détaillé des actions dans des vidéos complexes | Articles de recherche récents | HyperAI