R-CNN à deux flux multi-régions pour la détection d'actions

Nous proposons un modèle R-CNN à deux flux multi-régions pour la détection d’actions dans des vidéos réalistes. Nous partons d’une détection d’actions au niveau des trames basée sur Faster R-CNN [1], et apportons trois contributions principales : (1) nous montrons qu’un réseau de propositions de régions motionnelles génère des propositions de haute qualité, complémentaires à celles produites par un réseau de propositions de régions d’apparence ; (2) nous démontrons qu’empiler les flux optiques sur plusieurs trames améliore significativement la détection d’actions au niveau des trames ; (3) nous intégrons une stratégie multi-régions dans le modèle Faster R-CNN, ajoutant ainsi des informations complémentaires sur les parties du corps. Nous relions ensuite les détections au niveau des trames à l’aide de l’algorithme de Viterbi, et localisons temporellement les actions à l’aide de la méthode du sous-tableau maximal. Les résultats expérimentaux sur les jeux de données de détection d’actions UCF-Sports, J-HMDB et UCF101 montrent que notre approche surpasse de manière significative l’état de l’art, tant en termes de frame-mAP que de video-mAP.