HyperAIHyperAI
il y a 17 jours

MoViNets : Réseaux vidéo mobiles pour une reconnaissance vidéo efficace

Dan Kondratyuk, Liangzhe Yuan, Yandong Li, Li Zhang, Mingxing Tan, Matthew Brown, Boqing Gong
MoViNets : Réseaux vidéo mobiles pour une reconnaissance vidéo efficace
Résumé

Nous présentons MoViNets, une famille de réseaux vidéo efficaces en termes de calcul et de mémoire, capables de fonctionner sur des vidéos en flux continu pour des inférences en ligne. Les réseaux de neurones convolutifs 3D (CNN 3D) sont précis pour la reconnaissance vidéo, mais nécessitent des budgets importants en calcul et en mémoire, et ne supportent pas l'inférence en ligne, ce qui les rend difficiles à déployer sur des dispositifs mobiles. Nous proposons une approche en trois étapes visant à améliorer l'efficacité computationnelle tout en réduisant de manière significative l'utilisation mémoire maximale des CNN 3D. Premièrement, nous définissons un espace de recherche d'architectures de réseaux vidéo et utilisons une recherche d'architecture neuronale (NAS) pour générer des architectures 3D CNN efficaces et diversifiées. Deuxièmement, nous introduisons la technique du Stream Buffer, qui découple la mémoire de la durée de la séquence vidéo, permettant aux CNN 3D d'encoder des séquences vidéo en flux de longueur arbitraire, tant pour l'entraînement que pour l'inférence, avec une empreinte mémoire constante et faible. Troisièmement, nous proposons une technique simple d'ensemblage pour améliorer davantage la précision sans sacrifier l'efficacité. Ces trois techniques progressives permettent à MoViNets d'atteindre des performances de pointe en précision et en efficacité sur les jeux de données de reconnaissance d'actions vidéo Kinetics, Moments in Time et Charades. Par exemple, MoViNet-A5-Stream atteint la même précision que X3D-XL sur Kinetics 600 tout en nécessitant 80 % moins d’opérations flottantes (FLOPs) et 65 % moins de mémoire. Le code sera mis à disposition à l’adresse suivante : https://github.com/tensorflow/models/tree/master/official/vision.

MoViNets : Réseaux vidéo mobiles pour une reconnaissance vidéo efficace | Articles de recherche récents | HyperAI