Danse avec Flux : Détection d'Actions en Deux Étapes dans un Flux Vidéo

L'objectif de cet article est de détecter l'étendue spatio-temporelle d'une action. Le réseau de détection à deux flux basé sur les images RGB et le flux optique offre une précision de pointe au prix d'un modèle volumineux et de calculs lourds. Nous proposons d'intégrer les images RGB et le flux optique dans un seul réseau à deux flux en un, doté de nouvelles couches. Une couche de conditionnement du mouvement extrait des informations de mouvement à partir des images de flux, qui sont ensuite utilisées par la couche de modulation du mouvement pour générer des paramètres de transformation permettant de moduler les caractéristiques RGB de bas niveau. Cette méthode peut être facilement intégrée dans les réseaux existants de détection d'actions basés sur l'apparence ou à deux flux, et elle peut être formée d'un bout à l'autre. Les expériences montrent que l'utilisation du conditionnement du mouvement pour moduler les caractéristiques RGB améliore la précision de la détection. Avec seulement la moitié des calculs et des paramètres des méthodes à deux flux les plus performantes actuellement, notre réseau à deux flux en un obtient toutefois des résultats impressionnants sur UCF101-24, UCFSports et J-HMDB.