Reconnaissance d'actions dans les vidéos à partir de points de vue inédits

Les méthodes standards de reconnaissance vidéo reposent sur de grands réseaux de neurones convolutifs (CNN) conçus pour capturer des données spatio-temporelles. Toutefois, l'entraînement de ces modèles nécessite une quantité importante de données d'entraînement étiquetées, couvrant une large variété d'actions, de scènes, de contextes et de points de vue caméra. Dans cet article, nous démontrons que les modèles actuels de réseaux de neurones convolutifs sont incapables de reconnaître des actions à partir de points de vue caméra non présents dans leurs données d'entraînement (c’est-à-dire la reconnaissance d’actions à point de vue inédit). Pour pallier ce problème, nous proposons des approches fondées sur des représentations 3D et introduisons un nouveau type de couche convolutive géométrique capable d’apprendre des représentations invariantes au point de vue. En outre, nous présentons un nouveau jeu de données, exigeant et difficile, dédié à la reconnaissance à point de vue inédit, et montrons la capacité de nos approches à apprendre des représentations invariantes au point de vue.