HyperAIHyperAI
il y a 2 mois

Classification vidéo avec des réseaux de neurones convolutifs séparés par canaux

Du Tran; Heng Wang; Lorenzo Torresani; Matt Feiszli
Classification vidéo avec des réseaux de neurones convolutifs séparés par canaux
Résumé

La convolution de groupe a été démontrée comme offrant d'importantes économies de calcul dans diverses architectures de convolution 2D pour la classification d'images. Il est naturel de se poser les questions suivantes : 1) si la convolution de groupe peut aider à atténuer le coût computationnel élevé des réseaux de classification vidéo ; 2) quels facteurs sont les plus importants dans les réseaux de convolution 3D en groupe ; et 3) quelles sont les bonnes compromis entre calcul et précision avec les réseaux de convolution 3D en groupe.Cet article étudie les effets de différents choix de conception dans les réseaux de convolution 3D en groupe pour la classification vidéo. Nous démontrons empiriquement que le nombre d'interactions entre canaux joue un rôle crucial dans la précision des réseaux de convolution 3D en groupe. Nos expériences suggèrent deux conclusions principales. Premièrement, il est une bonne pratique de factoriser les convolutions 3D en séparant les interactions entre canaux et les interactions spatio-temporelles, car cela conduit à une meilleure précision et à un coût computationnel inférieur. Deuxièmement, les convolutions 3D séparées par canal fournissent une forme de régularisation, entraînant une précision d'entraînement plus faible mais une précision de test supérieure par rapport aux convolutions 3D. Ces deux constatations empiriques nous ont conduits à concevoir une architecture -- Réseau de Convolution Séparé par Canal (CSN) -- qui est simple, efficace et précise. Sur Sports1M, Kinetics et Something-Something, nos CSNs sont comparables ou meilleurs que l'état de l'art tout en étant 2 à 3 fois plus efficaces.