DMC-Net : Génération de cues de mouvement discriminants pour une reconnaissance rapide des actions dans les vidéos compressées

Le mouvement s'est avéré utile pour la compréhension des vidéos, où il est généralement représenté par le flux optique. Cependant, le calcul du flux à partir des images vidéo est très coûteux en temps. Des travaux récents exploitent directement les vecteurs de mouvement et les résidus disponibles dans la vidéo compressée pour représenter le mouvement sans coût supplémentaire. Bien que cette approche évite le calcul du flux, elle nuit également à la précision car les vecteurs de mouvement sont bruyants et ont une résolution considérablement réduite, ce qui en fait une représentation moins discriminante du mouvement. Pour remédier à ces problèmes, nous proposons un réseau générateur léger qui réduit les bruits dans les vecteurs de mouvement et capture les détails fins du mouvement, permettant d'obtenir une représentation plus Discriminative Motion Cue (DMC). Étant donné que le flux optique est une représentation plus précise du mouvement, nous formons le générateur DMC pour approximer le flux en utilisant une perte de reconstruction et une perte adversariale générative, conjointement avec la tâche de classification d'action en aval. De nombreuses évaluations sur trois benchmarks de reconnaissance d'actions (HMDB-51, UCF-101 et un sous-ensemble de Kinetics) confirment l'efficacité de notre méthode. Notre système complet, composé du générateur et du classifieur, est nommé DMC-Net, qui atteint une précision élevée proche de celle obtenue avec le flux optique et fonctionne deux ordres de grandeur plus rapidement qu'en utilisant le flux optique lors de l'inférence.