HyperAIHyperAI

Command Palette

Search for a command to run...

VPN : Apprentissage d'une représentation vidéo-poses pour les activités de la vie quotidienne

Srijan Das Saurav Sharma Rui Dai Francois Bremond Monique Thonnat

Résumé

Dans cet article, nous nous concentrons sur l'aspect spatio-temporel de la reconnaissance des activités de la vie quotidienne (ADL). Les ADL présentent deux propriétés spécifiques : (i) des motifs spatio-temporels subtils, et (ii) des motifs visuels similaires évoluant dans le temps. Par conséquent, ces activités peuvent apparaître très similaires, et il est souvent nécessaire d’analyser leurs détails fins pour les distinguer. Étant donné que les récents réseaux convolutionnels 3D spatio-temporels sont trop rigides pour capturer efficacement les motifs visuels subtils au sein d’une action, nous proposons un nouveau modèle de réseau vidéo-pose : le VPN (Video-Pose Network). Les deux composants clés de ce VPN sont une embedding spatial et un réseau d’attention. L’embedding spatial projette les poses 3D ainsi que les informations RGB dans un espace sémantique commun, permettant ainsi au cadre de reconnaissance d’actions d’apprendre des caractéristiques spatio-temporelles améliorées en exploitant les deux modalités. Afin de distinguer des actions similaires, le réseau d’attention offre deux fonctionnalités : (i) un squelette d’apprentissage end-to-end exploitant la topologie du corps humain, et (ii) un couplage permettant d’obtenir des poids d’attention spatio-temporelle conjointe sur l’ensemble d’une vidéo. Les expérimentations montrent que le VPN surpasser les résultats les plus récents dans la classification d’actions sur un grand jeu de données d’activités humaines : NTU-RGB+D 120, son sous-ensemble NTU-RGB+D 60, un jeu de données réel et exigeant d’activités humaines : Toyota Smarthome, ainsi qu’un petit jeu de données d’interactions homme-objet : Northwestern UCLA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp