HyperAIHyperAI
il y a 2 mois

Réseaux de neurones convolutifs 3D efficaces en ressources

Okan Köpüklü; Neslihan Kose; Ahmet Gunduz; Gerhard Rigoll
Réseaux de neurones convolutifs 3D efficaces en ressources
Résumé

Récemment, les réseaux de neurones convolutifs avec des noyaux 3D (3D CNN) ont connu une grande popularité dans la communauté de la vision par ordinateur en raison de leur capacité supérieure à extraire des caractéristiques spatio-temporelles au sein des images vidéo par rapport aux 2D CNN. Bien que des progrès considérables aient été réalisés récemment pour construire des architectures de 2D CNN efficaces en termes de ressources, en tenant compte du budget mémoire et d'énergie, il existe très peu d'architectures similaires efficaces en termes de ressources pour les 3D CNN. Dans cet article, nous avons converti diverses architectures de 2D CNN bien connues et efficaces en termes de ressources en 3D CNN, et évalué leurs performances sur trois grands benchmarks en termes de précision de classification pour différents niveaux de complexité. Nous avons mené des expériences sur : (1) le jeu de données Kinetics-600 pour examiner leur capacité d'apprentissage, (2) le jeu de données Jester pour examiner leur capacité à capturer des motifs de mouvement, et (3) le jeu de données UCF-101 pour examiner l'applicabilité du transfert d'apprentissage. Nous avons évalué les performances en temps réel de chaque modèle sur une seule carte graphique Titan XP et un système embarqué Jetson TX2. Les résultats de cette étude montrent que ces modèles peuvent être utilisés pour différents types d'applications dans le monde réel car ils offrent des performances en temps réel avec des précisions et des consommations mémoire notables. Notre analyse à différents niveaux de complexité indique que les 3D CNN efficaces en termes de ressources ne devraient pas être conçus trop peu profonds ou trop étroits afin d'économiser sur la complexité. Les codes et les modèles pré-entraînés utilisés dans ce travail sont disponibles publiquement.