il y a 16 jours

VPN : Apprentissage d'une représentation vidéo-poses pour les activités de la vie quotidienne

Srijan Das, Saurav Sharma, Rui Dai, Francois Bremond, Monique Thonnat

Résumé

Dans cet article, nous nous concentrons sur l'aspect spatio-temporel de la reconnaissance des activités de la vie quotidienne (ADL). Les ADL présentent deux propriétés spécifiques : (i) des motifs spatio-temporels subtils, et (ii) des motifs visuels similaires évoluant dans le temps. Par conséquent, ces activités peuvent apparaître très similaires, et il est souvent nécessaire d’analyser leurs détails fins pour les distinguer. Étant donné que les récents réseaux convolutionnels 3D spatio-temporels sont trop rigides pour capturer efficacement les motifs visuels subtils au sein d’une action, nous proposons un nouveau modèle de réseau vidéo-pose : le VPN (Video-Pose Network). Les deux composants clés de ce VPN sont une embedding spatial et un réseau d’attention. L’embedding spatial projette les poses 3D ainsi que les informations RGB dans un espace sémantique commun, permettant ainsi au cadre de reconnaissance d’actions d’apprendre des caractéristiques spatio-temporelles améliorées en exploitant les deux modalités. Afin de distinguer des actions similaires, le réseau d’attention offre deux fonctionnalités : (i) un squelette d’apprentissage end-to-end exploitant la topologie du corps humain, et (ii) un couplage permettant d’obtenir des poids d’attention spatio-temporelle conjointe sur l’ensemble d’une vidéo. Les expérimentations montrent que le VPN surpasser les résultats les plus récents dans la classification d’actions sur un grand jeu de données d’activités humaines : NTU-RGB+D 120, son sous-ensemble NTU-RGB+D 60, un jeu de données réel et exigeant d’activités humaines : Toyota Smarthome, ainsi qu’un petit jeu de données d’interactions homme-objet : Northwestern UCLA.