HyperAIHyperAI
il y a 17 jours

Réexamen des dispositions spatio-temporelles pour la reconnaissance d’actions composées

Gorjan Radevski, Marie-Francine Moens, Tinne Tuytelaars
Réexamen des dispositions spatio-temporelles pour la reconnaissance d’actions composées
Résumé

La reconnaissance des actions humaines est fondamentalement un problème de raisonnement spatio-temporel, et devrait, au moins dans une certaine mesure, être invariante par rapport à l’apparence de l’humain et des objets impliqués. Motivés par cette hypothèse, nous adoptons dans ce travail une approche centrée sur les objets pour la reconnaissance d’actions. Bien que plusieurs travaux aient déjà exploré ce cadre, il reste encore incertain (i) dans quelle mesure une méthode soigneusement conçue basée sur la disposition spatio-temporelle peut reconnaître efficacement les actions humaines, et (ii) comment et quand fusionner les informations provenant des modèles basés sur la disposition et ceux basés sur l’apparence. L’objectif principal de cet article porte sur la reconnaissance d’actions compositionnelle ou à faible exemple (few-shot), où nous défendons l’usage de l’attention à plusieurs têtes (déjà démontrée efficace pour le raisonnement spatial) appliquée aux dispositions spatio-temporelles, c’est-à-dire aux configurations de boîtes englobantes d’objets. Nous évaluons différentes stratégies pour intégrer les informations d’apparence vidéo dans le système, et benchmarkons notre approche sur des tâches de reconnaissance d’actions dans des arrière-plans chargés. Sur les jeux de données Something-Else et Action Genome, nous démontrons (i) comment étendre l’attention à plusieurs têtes pour la reconnaissance d’actions basée sur les dispositions spatio-temporelles, (ii) comment améliorer les performances des modèles basés sur l’apparence grâce à une fusion avec des modèles basés sur les dispositions, et (iii) que même sur des jeux de données vidéo non compositionnels et à arrière-plan chargé, une fusion entre modèles basés sur les dispositions et modèles basés sur l’apparence améliore significativement les performances.