il y a 2 mois

AssembleNet : Recherche de connexions neuronales multi-flux dans les architectures vidéo

Ryoo, Michael S. ; Piergiovanni, AJ ; Tan, Mingxing ; Angelova, Anelia

Résumé

L'apprentissage de la représentation des vidéos est une tâche très complexe tant sur le plan algorithmique que computationnel. Les architectures standard de CNN pour vidéo ont été conçues en étendant directement les architectures élaborées pour la compréhension des images afin d'inclure la dimension temporelle, en utilisant des modules tels que les convolutions 3D, ou en adoptant un design à deux flux pour capturer à la fois l'apparence et le mouvement dans les vidéos. Nous interprétons une CNN pour vidéo comme une collection de blocs convolutionnels multi-flux connectés entre eux, et proposons une approche consistant à trouver automatiquement des architectures neuronales avec une meilleure connectivité et des interactions spatio-temporelles améliorées pour la compréhension des vidéos. Cela est réalisé en faisant évoluer une population d'architectures sur-connectées guidée par l'apprentissage des poids de connexion. Nous recherchons des architectures combinant des représentations qui abstraient différents types d'entrée (c'est-à-dire RGB et flux optique) à plusieurs résolutions temporelles, permettant ainsi aux différentes informations ou sources de se combiner mutuellement. Notre méthode, dénommée AssembleNet, surpassent les approches précédentes sur des jeux de données vidéo publics, parfois avec une marge considérable. Nous obtenons un mAP de 58,6% sur Charades et une précision de 34,27% sur Moments-in-Time.