Command Palette
Search for a command to run...
Maximisation de l’entropie spatio-temporelle des CNNs profondes 3D pour une reconnaissance vidéo efficace
Maximisation de l’entropie spatio-temporelle des CNNs profondes 3D pour une reconnaissance vidéo efficace
Junyan Wang Zhenhong Sun Yichen Qian Dong Gong Xiuyu Sun Ming Lin Maurice Pagnucco Yang Song
Résumé
Les réseaux de neurones à convolution 3D (CNN) sont devenus la solution dominante pour la reconnaissance vidéo. Afin de capturer les informations temporelles, les convolutions 3D sont appliquées le long des séquences, ce qui entraîne une croissance cubique et coûteuse en termes de calcul. Pour réduire ce coût computationnel, les méthodes antérieures ont recours à des architectures 3D/2D manuellement conçues avec des approximations, ou à une recherche automatique, au prix d’une perte de capacité de modélisation ou d’un temps d’entraînement allongé. Dans ce travail, nous proposons une approche novatrice de recherche d’architecture de réseau neuronal libre de formation, spécifiquement conçue pour les CNN 3D, afin de concevoir automatiquement des architectures efficaces tout en tenant compte de la complexité du modèle. Pour mesurer de manière efficace l’expressivité des CNN 3D, nous modélisons un CNN 3D comme un système d’information et dérivons un score d’entropie analytique basé sur le principe de l’entropie maximale. Plus précisément, nous introduisons un score d’entropie spatio-temporelle (STEntr-Score), enrichi d’un facteur de révision, pour gérer les écarts entre les informations visuelles dans les dimensions spatiale et temporelle, en exploitant dynamiquement la corrélation entre la taille de la carte de caractéristiques et la profondeur du noyau selon la dimension temporelle. Des architectures CNN 3D hautement efficaces et expressives, à savoir les CNN 3D basés sur l’entropie (famille E3D), peuvent ainsi être recherchées de manière efficace en maximisant le STEntr-Score sous un budget computationnel donné, via un algorithme évolutionnaire sans entraînement des paramètres du réseau. Des expériences étendues sur les jeux de données Something-Something V1 & V2 et Kinetics400 montrent que la famille E3D atteint des performances de pointe tout en offrant une efficacité computationnelle supérieure. Le code est disponible à l’adresse suivante : https://github.com/alibaba/lightweight-neural-architecture-search.