Réseaux de convolution à deux flux cachés pour la reconnaissance d'actions

L'analyse de vidéos d'actions humaines implique la compréhension des relations temporelles entre les images vidéo. Les approches actuelles de reconnaissance d'actions s'appuient sur des méthodes traditionnelles d'estimation du flux optique pour pré-calculer les informations de mouvement destinées aux CNNs (Convolutional Neural Networks). Une telle approche en deux étapes est coûteuse en termes de calcul, exigeante en matière de stockage et ne peut pas être formée de manière end-to-end. Dans cet article, nous présentons une nouvelle architecture de CNN qui capture implicitement les informations de mouvement entre les images adjacentes. Nous nommons notre approche CNN à deux flux cachés car elle n'utilise que des images vidéo brutes comme entrée et prédit directement les classes d'actions sans calcul explicite du flux optique. Notre approche end-to-end est 10 fois plus rapide que sa version de base en deux étapes. Les résultats expérimentaux sur quatre jeux de données de reconnaissance d'actions difficiles : UCF101, HMDB51, THUMOS14 et ActivityNet v1.2 montrent que notre méthode surpasse significativement les meilleures approches en temps réel précédentes.