HyperAIHyperAI
il y a 17 jours

Module à Perception Multéchelle du Mouvement pour la Reconnaissance d'Actions Vidéo

{Yu-Chee Tseng, Huai-Wei Peng}
Résumé

En raison du temps de calcul élevé nécessaire au calcul du flux optique, les travaux récents ont proposé d'utiliser l'opération de corrélation comme une alternative pour extraire les caractéristiques de mouvement. Bien que l'utilisation de l'opération de corrélation permette une amélioration significative avec un nombre négligeable de FLOPs (opérations flottantes par seconde), elle introduit une latence par FLOP bien plus élevée que celle des opérations de convolution, et augmente notablement la latence lorsque des zones de recherche plus grandes sont utilisées. Néanmoins, réduire la taille de la zone de recherche dans l'opération de corrélation est voué à dégrader ses performances, en raison de la difficulté à capturer des déplacements importants. Dans ce travail, nous proposons un module efficace et à faible latence, appelé MSMA (Multi-Scale Motion-Aware). Ce module exploite des zones de recherche plus petites à différentes échelles afin d'extraire efficacement les caractéristiques de mouvement provenant de déplacements importants. Il peut être facilement intégré à divers architectures CNN et se généralise bien sur différentes bases. Lorsqu'il est intégré à TSM ResNet-50, le module MSMA entraîne une augmentation d'environ 17,6 % de la latence sur une GPU NVIDIA Tesla V100, tout en atteignant des performances de pointe sur les jeux de données SomethingSomething V1 & V2 et Diving-48.

Module à Perception Multéchelle du Mouvement pour la Reconnaissance d'Actions Vidéo | Articles de recherche récents | HyperAI