HyperAIHyperAI

Command Palette

Search for a command to run...

Maximisation de l’entropie spatio-temporelle des CNNs profondes 3D pour une reconnaissance vidéo efficace

Junyan Wang Zhenhong Sun Yichen Qian Dong Gong Xiuyu Sun Ming Lin Maurice Pagnucco Yang Song

Résumé

Les réseaux de neurones à convolution 3D (CNN) sont devenus la solution dominante pour la reconnaissance vidéo. Afin de capturer les informations temporelles, les convolutions 3D sont appliquées le long des séquences, ce qui entraîne une croissance cubique et coûteuse en termes de calcul. Pour réduire ce coût computationnel, les méthodes antérieures ont recours à des architectures 3D/2D manuellement conçues avec des approximations, ou à une recherche automatique, au prix d’une perte de capacité de modélisation ou d’un temps d’entraînement allongé. Dans ce travail, nous proposons une approche novatrice de recherche d’architecture de réseau neuronal libre de formation, spécifiquement conçue pour les CNN 3D, afin de concevoir automatiquement des architectures efficaces tout en tenant compte de la complexité du modèle. Pour mesurer de manière efficace l’expressivité des CNN 3D, nous modélisons un CNN 3D comme un système d’information et dérivons un score d’entropie analytique basé sur le principe de l’entropie maximale. Plus précisément, nous introduisons un score d’entropie spatio-temporelle (STEntr-Score), enrichi d’un facteur de révision, pour gérer les écarts entre les informations visuelles dans les dimensions spatiale et temporelle, en exploitant dynamiquement la corrélation entre la taille de la carte de caractéristiques et la profondeur du noyau selon la dimension temporelle. Des architectures CNN 3D hautement efficaces et expressives, à savoir les CNN 3D basés sur l’entropie (famille E3D), peuvent ainsi être recherchées de manière efficace en maximisant le STEntr-Score sous un budget computationnel donné, via un algorithme évolutionnaire sans entraînement des paramètres du réseau. Des expériences étendues sur les jeux de données Something-Something V1 & V2 et Kinetics400 montrent que la famille E3D atteint des performances de pointe tout en offrant une efficacité computationnelle supérieure. Le code est disponible à l’adresse suivante : https://github.com/alibaba/lightweight-neural-architecture-search.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp