Représentation hiérarchique de séquences de frames vidéo avec un réseau graphique profond à convolutionnelle

Les modèles de prédiction de labels vidéo (classification) à haute précision sont attribués à des données à grande échelle. Ces données peuvent être des séquences de caractéristiques d'images extraits par un réseau neuronal convolutif pré-entraîné, ce qui favorise l'efficacité dans la création de modèles. Les solutions non supervisées telles que le regroupement par moyenne des caractéristiques, en tant que méthode simple indépendante des labels et sans paramètres, ont une capacité limitée à représenter la vidéo. En revanche, les méthodes supervisées comme les réseaux de neurones récurrents (RNN) peuvent considérablement améliorer la précision de reconnaissance. Cependant, étant donné que la durée des vidéos est généralement longue et qu'il existe des relations hiérarchiques entre les images au fil des événements dans la vidéo, les performances des modèles basés sur RNN diminuent. Dans cet article, nous proposons une nouvelle méthode de classification vidéo basée sur un réseau neuronal graphique convolutif profond (DCGN). La méthode proposée utilise les caractéristiques de la structure hiérarchique de la vidéo et effectue une extraction de caractéristiques multiréseaux sur la séquence d'images vidéo grâce au réseau graphique, obtenant ainsi une représentation vidéo reflétant sémantiquement les événements hiérarchiquement. Nous avons testé notre modèle sur l'ensemble de données YouTube-8M pour la compréhension à grande échelle des vidéos, et les résultats surpassent ceux des modèles basés sur RNN utilisés comme référence.