Reconnaissance d'événements anormaux dans les vidéos basée sur l'apprentissage conjoint du mouvement et de l'apparence avec plusieurs mesures de classement
Compte tenu de la rareté des jeux de données annotés, apprendre la dépendance du contexte par rapport aux événements anormaux ainsi que réduire les fausses alertes constituent des défis majeurs dans la détection d’activités anormales. Nous proposons un cadre, appelé DMRMs (Deep-network with Multiple Ranking Measures), qui traite la dépendance contextuelle à l’aide d’une technique d’apprentissage conjoint pour les caractéristiques de mouvement et d’apparence. Dans DMRMs, des caractéristiques spatio-temporelles sont extraites à partir d’une vidéo à l’aide d’un réseau résiduel 3D (3D ResNet), tandis que des caractéristiques profondes de mouvement sont obtenues en intégrant les informations provenant des cartes Motionflow avec le 3D ResNet. Ensuite, les caractéristiques extraites sont fusionnées pour un apprentissage conjoint. Cette fusion de données est ensuite passée à travers un réseau de neurones profond afin d’effectuer un apprentissage multiple par instances profond (DMIL), permettant d’apprendre la dépendance contextuelle de manière faiblement supervisée grâce aux mesures de classement multiples (MRMs) proposées. Ces MRMs prennent en compte plusieurs critères de fausses alertes, et le réseau est entraîné à la fois sur des événements normaux et anormaux, ce qui permet de réduire le taux de fausses alertes. Par ailleurs, lors de la phase d’inférence, le réseau prédit pour chaque trame un score d’anomalie ainsi que la localisation des objets en mouvement à l’aide des cartes Motionflow. Un score d’anomalie plus élevé indique la présence d’un événement anormal. Les résultats expérimentaux sur deux jeux de données récents et exigeants montrent que notre cadre améliore le score AUC (aire sous la courbe) de 6,5 % par rapport à la méthode de l’état de l’art sur le jeu de données UCF-Crime, et atteint un AUC de 68,5 % sur le jeu de données ShanghaiTech.