Réseaux Multi-Fibres pour la Reconnaissance Vidéo

Dans cet article, nous visons à réduire le coût computationnel des réseaux neuronaux profonds spatio-temporels, afin qu'ils puissent fonctionner aussi rapidement que leurs homologues 2D tout en conservant une précision de pointe sur les benchmarks de reconnaissance vidéo. À cette fin, nous présentons l'architecture Multi-Fiber innovante qui divise un réseau neuronal complexe en un ensemble de réseaux légers ou fibres qui traversent le réseau. Pour faciliter le flux d'information entre les fibres, nous intégrons également des modules multiplexeurs, aboutissant ainsi à une architecture qui réduit le coût computationnel des réseaux 3D d'un ordre de grandeur tout en améliorant simultanément les performances de reconnaissance. Des résultats expérimentaux approfondis montrent que notre architecture Multi-Fiber augmente considérablement l'efficacité des réseaux de convolution existants pour les tâches de reconnaissance d'images et de vidéos, atteignant des performances de pointe sur les jeux de données UCF-101, HMDB-51 et Kinetics. Notre modèle proposé nécessite plus de 9 fois et 13 fois moins de calculs que les modèles I3D et R(2+1)D respectivement, tout en offrant une meilleure précision.