I3D-LSTM : Un Nouveau Modèle pour la Reconnaissance des Actions Humaines
La reconnaissance d’actions est devenue récemment un sujet de recherche très actif, visant à classifier différentes actions humaines dans des vidéos. Les méthodes actuelles les plus courantes utilisent généralement un modèle pré-entraîné sur ImageNet comme extracteur de caractéristiques, mais ce n’est pas le choix optimal pour pré-entraîner un modèle destiné à la classification vidéo sur un vaste ensemble de données d’images statiques. En outre, très peu de travaux ont noté que les réseaux de neurones à convolution 3D (3D CNN) sont plus efficaces pour extraire des caractéristiques spatio-temporelles de bas niveau, tandis que les réseaux de neurones récurrents (RNN) se révèlent plus adaptés pour modéliser des séquences temporelles de haut niveau. Ainsi, dans notre travail, nous proposons un nouveau modèle afin de résoudre ces deux problèmes. Premièrement, nous pré-entraînons un modèle 3D CNN sur un grand jeu de données de reconnaissance d’actions vidéo, Kinetics, afin d’améliorer la généralisation du modèle. Ensuite, nous introduisons un réseau à mémoire à long terme (LSTM) pour modéliser les caractéristiques temporelles de haut niveau extraites par le modèle 3D CNN pré-entraîné sur Kinetics. Nos résultats expérimentaux montrent que le modèle pré-entraîné sur Kinetics dépasse généralement celui pré-entraîné sur ImageNet. Enfin, le réseau proposé atteint une performance de pointe sur le jeu de données UCF-101.