PMI Sampler : Sélection de trames guidée par la similarité des patchs pour la reconnaissance d'actions aériennes

Nous présentons un nouvel algorithme pour la sélection des trames informatives dans la reconnaissance d’actions vidéo. Notre approche est conçue pour les vidéos aériennes capturées à l’aide d’une caméra en mouvement, où les acteurs humains occupent une petite résolution spatiale dans les trames vidéo. L'algorithme exploite le biais de mouvement présent dans les vidéos aériennes, permettant ainsi de sélectionner des trames aux caractéristiques de mouvement marquées. Nous introduisons le concept de score de mutualité de patch (PMI, Patch Mutual Information), utilisé pour quantifier le biais de mouvement entre trames adjacentes en mesurant la similarité des patches. Ce score permet d’évaluer la quantité d’information discriminante liée au mouvement contenue dans une trame par rapport à une autre. Nous proposons une stratégie adaptative de sélection de trames basée sur une fonction d’activation décalée à rétention partielle (shifted leaky ReLU) et une fonction de distribution cumulée, garantissant que les trames échantillonnées couvrent de manière exhaustive tous les segments essentiels présentant une forte salience de mouvement. Notre méthode peut être intégrée à tout modèle de reconnaissance d’actions afin d’améliorer sa précision. En pratique, notre approche obtient une amélioration relative de 2,2 à 13,8 % en précision top-1 sur le jeu de données UAV-Human, de 6,8 % sur NEC Drone, et de 9,0 % sur Diving48.