Au-delà du regroupement temporel : récurrence et convolutions temporelles pour la reconnaissance de gestes dans les vidéos

Des études récentes ont démontré la puissance des réseaux de neurones récurrents pour la traduction automatique, la légendage d'images et la reconnaissance vocale. Cependant, pour la tâche de capturer la structure temporelle dans les vidéos, de nombreuses questions de recherche restent ouvertes. Les recherches actuelles suggèrent l'utilisation d'une stratégie simple de regroupement des caractéristiques temporelles afin de prendre en compte l'aspect temporel des vidéos. Nous montrons que cette méthode n'est pas suffisante pour la reconnaissance des gestes, où l'information temporelle est plus discriminante par rapport aux tâches générales de classification vidéo. Nous explorons des architectures profondes pour la reconnaissance des gestes dans les vidéos et proposons une nouvelle architecture de réseau neuronal entièrement entraînable intégrant des convolutions temporelles et une récurrence bidirectionnelle. Nos principales contributions sont doubles : premièrement, nous démontrons que la récurrence est cruciale pour cette tâche ; deuxièmement, nous montrons que l'ajout de convolutions temporelles entraîne des améliorations significatives. Nous évaluons différentes approches sur le jeu de données Montalbano pour la reconnaissance des gestes, où nous obtenons des résultats à l'état de l'art.