HyperAIHyperAI
il y a 8 jours

Reconnaissance d'actions humaines entre jeux de données par décomposition d'histogramme pondéré par le premier plan

{Waqas Sultani, Imran Saleemi}
Reconnaissance d'actions humaines entre jeux de données par décomposition d'histogramme pondéré par le premier plan
Résumé

Ce papier s'attaque au problème de la reconnaissance d'actions humaines lorsqu'on entraîne et teste sur des jeux de données distincts, dans le cas où les vidéos de test ne sont ni étiquetées ni disponibles durant l'entraînement. Dans ce contexte, les approches basées sur l'apprentissage d'un vocabulaire commun ou les techniques de transfert de domaine ne sont pas applicables. Nous analysons tout d'abord les causes de la faible performance des classificateurs lorsqu'ils sont évalués sur des jeux de données nouveaux, et quantifions l'impact des arrière-plans scéniques sur les représentations d'actions et leur reconnaissance. En utilisant uniquement les caractéristiques d'arrière-plan et une partition de l'espace descriptif de type « gist », nous montrons que les arrière-plans scéniques présents dans les jeux de données récents sont très discriminants et peuvent être exploités pour classer une action avec une précision raisonnable. Ensuite, nous proposons un nouveau processus permettant d'obtenir une mesure de confiance pour chaque pixel d'une vidéo, indiquant s'il appartient à une région de premier plan, en combinant simultanément le mouvement, l'apparence et la saliency dans un cadre fondé sur un modèle de réseau de Markov 3D (3D MRF). Nous proposons également plusieurs méthodes pour exploiter cette confiance sur le premier plan : amélioration du vocabulaire « bag-of-words », représentation par histogramme d'une vidéo, ainsi qu'une nouvelle représentation basée sur une décomposition d'histogramme et un noyau associé. Nous avons utilisé ces mesures de confiance pour reconnaître des actions entraînées sur un jeu de données et testées sur un autre. Des expérimentations étendues menées sur plusieurs jeux de données montrent une amélioration significative de la précision de reconnaissance entre jeux de données par rapport aux méthodes de référence.