HyperAIHyperAI
il y a 16 jours

VPN++ : Repenser les embeddings vidéo-poses pour la compréhension des activités de la vie quotidienne

Srijan Das, Rui Dai, Di Yang, Francois Bremond
VPN++ : Repenser les embeddings vidéo-poses pour la compréhension des activités de la vie quotidienne
Résumé

De nombreuses tentatives ont été entreprises pour combiner les flux RGB et les poses 3D afin de reconnaître les activités de la vie quotidienne (ADL). Ces activités peuvent présenter des similitudes importantes et nécessitent souvent une modélisation détaillée pour être distinguées. Étant donné que les récents réseaux convolutifs 3D (3D ConvNets) sont trop rigides pour capturer les motifs visuels subtils au cours d'une action, cette direction de recherche est dominée par des méthodes combinant les données RGB et les poses 3D. Toutefois, le coût computationnel élevé de la reconstruction des poses 3D à partir du flux RGB, en l'absence de capteurs adaptés, limite fortement l'application de ces approches dans des scénarios réels exigeant une faible latence. Alors, comment tirer le meilleur parti des poses 3D pour la reconnaissance des ADL ? À cet effet, nous proposons une extension d’un mécanisme d’attention piloté par la pose : le Video-Pose Network (VPN), explorant deux directions distinctes. La première consiste à transférer les connaissances relatives à la pose vers le flux RGB via une distillation au niveau des caractéristiques ; la seconde vise à imiter l’attention pilotée par la pose à travers une distillation au niveau de l’attention. Enfin, ces deux approches sont intégrées dans un seul modèle, que nous appelons VPN++. Nous démontrons que VPN++ est non seulement efficace, mais également capable d’offrir un gain de vitesse significatif et une grande robustesse face aux poses bruitées. Que ce soit avec ou sans poses 3D, VPN++ surpasse les modèles de référence sur quatre jeux de données publics. Le code est disponible à l’adresse suivante : https://github.com/srijandas07/vpnplusplus.

VPN++ : Repenser les embeddings vidéo-poses pour la compréhension des activités de la vie quotidienne | Articles de recherche récents | HyperAI