RPAN : Un réseau de pose-attention récurrent end-to-end pour la reconnaissance d’actions dans les vidéos
Des études récentes démontrent l'efficacité des réseaux de neurones récurrents (RNN) pour la reconnaissance d’actions dans les vidéos. Toutefois, les travaux antérieurs s’appuient principalement sur une supervision au niveau de la catégorie vidéo pour entraîner les RNN, ce qui peut limiter leur capacité à apprendre des structures de mouvement complexes au fil du temps. Dans cet article, nous proposons un réseau récurrent à attention sur la posture (RPAN) afin de relever ce défi, en introduisant un mécanisme original d’attention sur la posture permettant d’apprendre de manière adaptative des caractéristiques liées à la posture à chaque étape temporelle de la prédiction d’action par les RNN. Plus précisément, nous apportons trois contributions majeures. Premièrement, contrairement aux travaux antérieurs sur la reconnaissance d’actions liées à la posture, notre RPAN est un réseau récurrent end-to-end capable d’exploiter de manière unifiée les évolutions spatio-temporelles importantes de la posture humaine afin d’assister la reconnaissance d’actions. Deuxièmement, au lieu d’apprendre séparément les caractéristiques des articulations humaines individuelles, notre mécanisme d’attention sur la posture apprend des caractéristiques robustes des parties du corps humain en partageant partiellement les paramètres d’attention sur des articulations humaines sémantiquement corrélées. Ces caractéristiques de parties du corps sont ensuite introduites dans une couche de pooling par partie du corps afin de construire une représentation hautement discriminante liée à la posture, adaptée au modélisation temporelle des actions. Troisièmement, un résultat important secondaire de notre RPAN est l’estimation de la posture dans les vidéos, qui peut être utilisée pour annoter grossièrement les postures dans les vidéos d’actions. Nous évaluons quantitativement et qualitativement le RPAN sur deux benchmarks populaires, à savoir Sub-JHMDB et PennAction. Les résultats expérimentaux montrent que le RPAN surpasse les méthodes les plus récentes de l’état de l’art sur ces jeux de données exigeants.