HyperAIHyperAI
il y a 2 mois

Évolution des architectures neuronales spatio-temporelles pour les vidéos

AJ Piergiovanni; Anelia Angelova; Alexander Toshev; Michael S. Ryoo
Évolution des architectures neuronales spatio-temporelles pour les vidéos
Résumé

Nous présentons une nouvelle méthode pour trouver des architectures de CNN vidéo capables de capturer des informations spatio-temporelles riches dans les vidéos. Les travaux précédents, en exploitant les convolutions 3D, ont obtenu des résultats prometteurs grâce à la conception manuelle d'architectures de CNN vidéo. Nous développons ici un nouvel algorithme de recherche évolutionnaire qui explore automatiquement des modèles avec différents types et combinaisons de couches afin d'apprendre conjointement les interactions entre les aspects spatiaux et temporels des représentations vidéo. Nous démontrons la généralité de cet algorithme en l'appliquant à deux méta-architectures, aboutissant à de nouvelles architectures supérieures aux architectures conçues manuellement. De plus, nous proposons une nouvelle composante, la couche iTGM (Interactive Temporal Group Multiplication), qui utilise ses paramètres de manière plus efficace pour permettre l'apprentissage d'interactions espace-temps sur des horizons temporels plus longs. La couche iTGM est souvent préférée par l'algorithme évolutionnaire et permet la construction de réseaux coût-efficaces. L'approche proposée découvre de nouvelles et diverses architectures vidéo qui étaient jusqu'à présent inconnues. Plus important encore, elles sont à la fois plus précises et plus rapides que les modèles antérieurs, surpassant les résultats de pointe sur plusieurs jeux de données que nous avons testés, notamment HMDB, Kinetics et Moments in Time. Nous mettrons le code et les modèles à disposition sous licence open source pour encourager le développement futur des modèles.