Désenchevêtrement vidéo Busy-Quiet pour la classification vidéo

Dans les données vidéo, les détails de mouvement importants provenant des régions en mouvement sont transmis dans une bande de fréquences spécifique dans le domaine fréquentiel. En revanche, les autres fréquences des données vidéo sont codées avec des informations peu dynamiques, présentant une redondance importante, ce qui entraîne une faible efficacité de traitement dans les modèles vidéo existants qui prennent en entrée des trames brutes RGB. Dans cet article, nous proposons d’attribuer une charge de calcul plus importante au traitement des informations dynamiques essentielles, tout en réduisant la charge pour les informations statiques. Nous concevons un module pass-bande sur le mouvement entraînable (MBPM) afin de séparer les informations dynamiques des informations statiques dans les données vidéo brutes. En intégrant le MBPM dans une architecture CNN à deux chemins, nous définissons un réseau Busy-Quiet (BQN). L’efficacité du BQN repose sur l’élimination de la redondance dans l’espace des caractéristiques traitées par les deux chemins : l’un opère sur des caractéristiques statiques de faible résolution, tandis que l’autre traite les caractéristiques dynamiques. Le BQN proposé surpasser de nombreuses architectures récentes de traitement vidéo sur les jeux de données Something-Something V1, Kinetics400, UCF101 et HMDB51.