HyperAIHyperAI
il y a 2 mois

Aggrégation Temporelle Diversifiée et Factorisation Spatiotemporelle en Profondeur pour une Classification Vidéo Efficace

Lee, Youngwan ; Kim, Hyung-Il ; Yun, Kimin ; Moon, Jinyoung
Aggrégation Temporelle Diversifiée et Factorisation Spatiotemporelle en Profondeur pour une Classification Vidéo Efficace
Résumé

Les recherches récentes sur la classification des vidéos ont attiré l'attention dans les domaines de la modélisation temporelle et de l'architecture 3D efficace. Cependant, les méthodes de modélisation temporelle ne sont pas suffisamment efficaces ou l'architecture 3D efficace accorde moins d'importance à la modélisation temporelle. Pour combler ce fossé, nous proposons une architecture 3D efficace pour la modélisation temporelle, appelée VoV3D, qui comprend un module d'agrégation temporelle en une seule passe (T-OSA) et un composant factorisé en profondeur, D(2+1)D. Le T-OSA est conçu pour construire une hiérarchie de caractéristiques en agrégant des caractéristiques temporelles avec différents champs récepteurs temporels. L'empilement de ce module T-OSA permet au réseau lui-même de modéliser des relations temporelles à court et long terme entre les images sans modules externes.Inspirationnée par la factorisation du noyau et la factorisation des canaux, nous avons également conçu un module de factorisation spatio-temporelle en profondeur, nommé D(2+1)D, qui décompose une convolution en profondeur 3D en deux convolutions en profondeur spatiale et temporelle afin de rendre notre réseau plus léger et efficace. En utilisant la méthode de modélisation temporelle proposée (T-OSA) et le composant factorisé efficace (D(2+1)D), nous avons construit deux types de réseaux VoV3D : VoV3D-M et VoV3D-L. Grâce à son efficacité et à son efficience dans la modélisation temporelle, VoV3D-L possède 6 fois moins de paramètres de modèle et nécessite 16 fois moins de calculs, surpassant ainsi une méthode avancée de modélisation temporelle sur les jeux de données Something-Something et Kinetics-400.De plus, VoV3D montre une meilleure capacité de modélisation temporelle qu'une architecture 3D avancée et efficace, X3D, ayant une capacité de modèle comparable. Nous espérons que VoV3D puisse servir de référence pour une classification vidéo efficace.

Aggrégation Temporelle Diversifiée et Factorisation Spatiotemporelle en Profondeur pour une Classification Vidéo Efficace | Articles de recherche récents | HyperAI