Génération d’IDT Descripteurs et de Caractéristiques de Flot Optique I3D pour la Reconnaissance d’Actions avec des CNNs

Dans cet article, nous relançons l'utilisation de représentations vidéo confectionnées à la main pour la reconnaissance d'actions et redonnons vie à ces techniques grâce à une étape de hallucination basée sur les CNN. Bien que l'on utilise des images RGB et des trames de flux optique, le modèle I3D (parmi d'autres) excelle en combinant ses sorties avec les trajectoires denses améliorées (IDT) et leurs descripteurs vidéo de bas niveau encodés par le sac de mots (BoW) et les vecteurs de Fisher (FV). Une telle fusion entre les CNN et les représentations confectionnées à la main est coûteuse en temps en raison du prétraitement, de l'extraction des descripteurs, de l'encodage et du réglage des paramètres. Nous proposons donc un réseau entièrement entraînable avec plusieurs flux qui apprennent les représentations BoW/FV basées sur IDT lors de la phase d'entraînement et qui s'intègrent facilement au modèle I3D. Plus précisément, chaque flux prend en entrée les cartes de caractéristiques I3D avant la dernière couche convolutive 1D et apprend à « traduire » ces cartes en représentations BoW/FV. Ainsi, notre modèle peut halluciner et utiliser ces représentations BoW/FV synthétisées lors de la phase de test. Nous montrons que même les caractéristiques du flux complet I3D de flux optique peuvent être hallucinées, ce qui simplifie le pipeline. Notre modèle économise 20 à 55 heures de calculs et obtient des résultats d'état de l'art sur quatre jeux de données publiquement disponibles.