HyperAIHyperAI
il y a 17 jours

MARS : Flux RGB augmenté par le mouvement pour la reconnaissance d'actions

{ Cordelia Schmid, Karteek Alahari, Philippe Weinzaepfel, Nieves Crasto}
MARS : Flux RGB augmenté par le mouvement pour la reconnaissance d'actions
Résumé

La plupart des méthodes les plus avancées pour la reconnaissance d’actions reposent sur une architecture à deux flux utilisant des convolutions 3D : un flux d’apparence traitant les images RGB et un flux de mouvement analysant les champs optiques. Bien que la combinaison des données de flux optique avec les images RGB améliore les performances, le calcul précis du champ optique reste coûteux en ressources et augmente la latence de reconnaissance des actions. Cette contrainte limite l’application des approches à deux flux dans des cas réels exigeant une faible latence. Dans cet article, nous proposons deux méthodes d’apprentissage permettant de former un réseau CNN 3D standard fonctionnant uniquement sur des images RGB, de manière à imiter le comportement du flux de mouvement, évitant ainsi tout calcul de champ optique au moment de l’évaluation. Premièrement, en minimisant une perte basée sur les caractéristiques comparée à celles du flux de champ optique, nous démontrons que le réseau reproduit avec une grande fidélité les représentations du flux de mouvement. Deuxièmement, pour exploiter efficacement à la fois l’information d’apparence et celle du mouvement, nous entraînons le modèle à l’aide d’une combinaison linéaire de la perte basée sur les caractéristiques et de la perte d’entropie croisée classique utilisée pour la reconnaissance d’actions. Nous désignons par « Motion-Augmented RGB Stream » (MARS) le flux entraîné avec cette perte combinée. En tant que flux unique, MARS obtient des performances supérieures à celles des flux RGB ou de flux optique seuls, par exemple une précision de 72,7 % sur Kinetics, contre 72,0 % pour le flux RGB et 65,6 % pour le flux optique.