HyperAIHyperAI
il y a 2 mois

D3D : Réseaux 3D Distillés pour la Reconnaissance d'Actions Vidéo

Jonathan C. Stroud; David A. Ross; Chen Sun; Jia Deng; Rahul Sukthankar
D3D : Réseaux 3D Distillés pour la Reconnaissance d'Actions Vidéo
Résumé

Les méthodes de pointe pour la reconnaissance d'actions dans les vidéos utilisent généralement un ensemble de deux réseaux : le flux spatial, qui prend en entrée des images RGB, et le flux temporel, qui prend en entrée le flot optique. Dans les travaux récents, ces deux flux sont composés de Réseaux Neuronaux Convolutifs 3D (3D CNN), qui appliquent des filtres spatiotemporels au clip vidéo avant d'effectuer la classification. Conceptuellement, les filtres temporels devraient permettre au flux spatial d'apprendre des représentations de mouvement, rendant ainsi le flux temporel superflu. Cependant, nous constatons encore des améliorations significatives dans les performances de reconnaissance d'actions en incluant un flux temporel distinct, ce qui suggère que certaines informations capturées par le flux temporel sont « manquantes » dans le flux spatial. Dans cette étude, nous commençons par examiner si les représentations de mouvement sont effectivement absentes du flux spatial des 3D CNNs. Ensuite, nous montrons que ces représentations de mouvement peuvent être améliorées par distillation, en ajustant le flux spatial pour prédire les sorties du flux temporel, combinant ainsi efficacement les deux modèles en un seul flux. Enfin, nous démontrons que notre Réseau 3D Distillé (D3D) atteint des performances comparables à celles des approches à double flux, en utilisant uniquement un modèle unique et sans nécessité de calculer le flot optique.