HyperAIHyperAI
il y a 2 mois

Réflexion sur l'apprentissage des caractéristiques spatio-temporelles : compromis entre vitesse et précision dans la classification vidéo

Saining Xie; Chen Sun; Jonathan Huang; Zhuowen Tu; Kevin Murphy
Réflexion sur l'apprentissage des caractéristiques spatio-temporelles : compromis entre vitesse et précision dans la classification vidéo
Résumé

Malgré les progrès constants dans l'analyse vidéo grâce à l'adoption des réseaux de neurones convolutifs (CNNs), l'amélioration relative a été moins spectaculaire que celle de la classification d'images statiques en 2D. Trois défis principaux subsistent : la représentation des caractéristiques spatiales (images), la représentation de l'information temporelle et la complexité du modèle/calcul. Il a récemment été démontré par Carreira et Zisserman que les CNNs 3D, issus de réseaux 2D et pré-entraînés sur ImageNet, pourraient constituer une voie prometteuse pour l'apprentissage de la représentation spatiale et temporelle. Cependant, en ce qui concerne la complexité du modèle/calcul, les CNNs 3D sont beaucoup plus coûteux que les CNNs 2D et sont sujets au surapprentissage. Nous cherchons un équilibre entre rapidité et précision en construisant un système efficace et performant de classification vidéo grâce à une exploration systématique des choix critiques de conception du réseau. En particulier, nous montrons qu'il est possible de remplacer nombre des convolutions 3D par des convolutions 2D à faible coût. De manière surprenante, le meilleur résultat (en termes de vitesse et de précision) est obtenu lorsque les convolutions 3D situées au bas du réseau sont remplacées, suggérant que l'apprentissage de la représentation temporelle sur des caractéristiques sémantiques de haut niveau est plus utile. Notre conclusion se généralise aux jeux de données présentant des propriétés très différentes. Lorsqu'il est combiné avec plusieurs autres conceptions rentables, notamment la convolution spatiale/temporelle séparable et le contrôle des caractéristiques (feature gating), notre système aboutit à un système efficace de classification vidéo qui produit des résultats très compétitifs sur plusieurs benchmarks de classification d'actions (Kinetics, Something-something, UCF101 et HMDB) ainsi que sur deux benchmarks de détection d'actions (localisation) (JHMDB et UCF101-24).

Réflexion sur l'apprentissage des caractéristiques spatio-temporelles : compromis entre vitesse et précision dans la classification vidéo | Articles de recherche récents | HyperAI