HyperAIHyperAI
il y a 2 mois

Reconnaissance d'actions en temps réel avec des CNNs de vecteurs de mouvement améliorés

Bowen Zhang; Limin Wang; Zhe Wang; Yu Qiao; Hanli Wang
Reconnaissance d'actions en temps réel avec des CNNs de vecteurs de mouvement améliorés
Résumé

L'architecture en profondeur à deux flux a montré des performances excellentes dans la reconnaissance d'actions basée sur des vidéos. L'étape la plus coûteuse en termes de calculs dans cette approche provient du calcul du flot optique, ce qui l'empêche d'être en temps réel. Cet article accélère cette architecture en remplaçant le flot optique par un vecteur de mouvement, qui peut être obtenu directement à partir de vidéos compressées sans calcul supplémentaire. Cependant, le vecteur de mouvement manque de structures fines et contient des modèles de mouvement bruyants et inexactes, entraînant une dégradation évidente des performances de reconnaissance. Notre intuition clé pour atténuer ce problème est que le flot optique et le vecteur de mouvement sont intrinsèquement corrélés. Le transfert des connaissances acquises avec un réseau neuronal convolutif (CNN) basé sur le flot optique vers un CNN basé sur le vecteur de mouvement peut considérablement améliorer les performances du second. Plus précisément, nous introduisons trois stratégies pour cela : le transfert d'initialisation, le transfert de supervision et leur combinaison. Les résultats expérimentaux montrent que notre méthode atteint des performances comparables aux meilleures méthodes actuelles, tout en traitant 390,7 images par seconde, soit 27 fois plus rapidement que la méthode originale à deux flux.

Reconnaissance d'actions en temps réel avec des CNNs de vecteurs de mouvement améliorés | Articles de recherche récents | HyperAI