Apprentissage d'événements latents sous-jacents dans les vidéos d'activités à l'aide de filtres d'attention temporelle

Dans cet article, nous introduisons pour la première fois le concept de filtres d'attention temporelle et décrivons comment ils peuvent être utilisés pour la reconnaissance des activités humaines à partir de vidéos. De nombreuses activités de haut niveau sont souvent composées de plusieurs parties temporelles (par exemple, sous-événements) avec des durées/vitesses différentes. Notre objectif est de faire en sorte que le modèle apprenne explicitement cette structure temporelle en utilisant plusieurs filtres d'attention et en en tirant profit. Nos filtres temporels sont conçus pour être entièrement différentiables, permettant une formation de bout en bout des filtres temporels avec les architectures de réseaux neuronaux convolutifs basés sur les images ou les segments. Cet article présente une approche d'apprentissage d'un ensemble optimal de filtres d'attention temporelle statiques à partager entre différentes vidéos, et étend cette approche pour ajuster dynamiquement les filtres d'attention par vidéo lors des tests, en utilisant des réseaux de mémoire à court et long terme récurrents (LSTMs). Cela permet à nos filtres d'attention temporelle d'apprendre les sous-événements latents spécifiques à chaque activité. Nous confirmons expérimentalement que le concept proposé de filtres d'attention temporelle bénéficie à la reconnaissance des activités, et nous visualisons les sous-événements latents appris.