PA3D : Machine Pose-Action 3D pour la reconnaissance vidéo

Des études récentes ont mis en évidence les succès obtenus grâce à l'utilisation de réseaux de neurones convolutifs 3D (3D CNN) pour la reconnaissance d'actions dans les vidéos. Toutefois, la plupart des modèles 3D reposent sur des flux d'images RGB et de flux optique, lesquels ne permettent pas d'exploiter pleinement les dynamiques de posture — une information cruciale pour modéliser les actions humaines. Pour combler cet écart, nous proposons une architecture concise appelée Pose-Action 3D Machine (PA3D), capable d'encoder efficacement plusieurs modalités de posture au sein d'un cadre 3D unifié, afin d'apprendre des représentations spatio-temporelles de posture adaptées à la reconnaissance d'actions. Plus précisément, nous introduisons une nouvelle opération de convolution temporelle sur les postures, permettant de regrouper les postures spatiales sur plusieurs trames. Contrairement à la convolution temporelle classique, notre opération permet d'apprendre explicitement les mouvements de posture discriminants pour la reconnaissance des actions humaines. Des expériences étendues sur trois benchmarks populaires (JHMDB, HMDB et Charades) montrent que PA3D surpasse les approches récentes basées sur la posture. De plus, PA3D s'avère fortement complémentaire aux récents réseaux 3D CNN, tels que I3D. La fusion multi-flux atteint ainsi des performances de pointe sur tous les jeux de données évalués.