MITFAS : Alignement et échantillonnage de caractéristiques temporelles basés sur l'information mutuelle pour la reconnaissance d'actions dans les vidéos aériennes

Nous présentons une nouvelle approche pour la reconnaissance d’actions dans les vidéos captées par des drones aériens non équipés (UAV). Notre formulation est conçue pour gérer les occlusions et les changements de point de vue induits par le mouvement du UAV. Nous utilisons le concept d’information mutuelle afin de calculer et d’aligner les régions correspondant à une action humaine ou à un mouvement dans le domaine temporel. Cela permet à notre modèle de reconnaissance d’apprendre à partir des caractéristiques clés associées au mouvement. Nous proposons également une nouvelle méthode d’échantillonnage d’images basée sur l’information mutuelle conjointe, permettant d’extraire la séquence d’images la plus informative dans les vidéos UAV. Nous avons intégré notre approche avec X3D et évalué ses performances sur plusieurs jeux de données. En pratique, nous obtenons une amélioration de 18,9 % en précision Top-1 par rapport aux méthodes de pointe actuelles sur UAV-Human (Li et al., 2021), de 7,3 % sur Drone-Action (Perera et al., 2019), et de 7,16 % sur NEC Drones (Choi et al., 2020).