Command Palette
Search for a command to run...
Apprentissage des sous-événements latents dans les vidéos d'activités à l'aide de filtres d'attention temporelle
Apprentissage des sous-événements latents dans les vidéos d'activités à l'aide de filtres d'attention temporelle
Piergiovanni AJ Fan Chenyou Ryoo Michael S.
Résumé
Dans cet article, nous introduisons pour la première fois le concept de filtres d’attention temporelle, et décrivons leur utilisation pour la reconnaissance d’activités humaines à partir de vidéos. De nombreuses activités de haut niveau sont généralement composées de plusieurs parties temporelles (par exemple, sous-événements) présentant des durées ou vitesses différentes. Notre objectif est de permettre au modèle d’apprendre explicitement cette structure temporelle à l’aide de plusieurs filtres d’attention, et d’en tirer parti. Nos filtres temporels sont conçus pour être entièrement différentiables, ce qui permet une formation end-to-end des filtres temporels conjointement avec les architectures de réseaux de neurones convolutifs basées sur des trames ou sur des segments. Cet article présente une méthode d’apprentissage d’un ensemble de filtres d’attention temporelle statiques optimaux, partagés entre différentes vidéos, et étend cette approche à l’ajustement dynamique des filtres d’attention pour chaque vidéo de test grâce à des réseaux récurrents à mémoire à long court terme (LSTM). Cela permet à nos filtres d’attention temporelle d’apprendre des sous-événements latents spécifiques à chaque activité. Nous confirmons expérimentalement que le concept proposé de filtres d’attention temporelle améliore la reconnaissance d’activités, et visualisons les sous-événements latents appris.