Modèle de diffusion conditionné par le mouvement multimodal pour la détection d'anomalies dans les vidéos basée sur les squelettes

Les anomalies sont rares, et la détection d’anomalies est donc souvent formulée comme une classification à un seul type (One-Class Classification, OCC), c’est-à-dire entraînée uniquement sur des données normales. Les méthodes d’OCC les plus avancées restreignent les représentations latentes des mouvements normaux à des volumes restreints, et détectent comme anormaux tous les cas situés en dehors de ces volumes, ce qui répond de manière satisfaisante à la nature « ouverte » des anomalies. Toutefois, la normalité partage également cette propriété d’ouverture, puisque les humains peuvent accomplir une même action de plusieurs façons différentes, une caractéristique que les méthodes actuelles négligent. Nous proposons un nouveau modèle génératif pour la détection d’anomalies dans les vidéos (VAD), qui suppose que tant la normalité que l’anormalité sont multimodales. Nous nous appuyons sur des représentations squelettiques et exploitons des modèles probabilistes par diffusion d’avant-garde pour générer des postures humaines futures multimodales. Nous introduisons une nouvelle conditionnalité basée sur le mouvement passé des individus, et tirons parti des capacités améliorées de couverture des modes des processus de diffusion afin de générer des mouvements futurs différents mais plausibles. Une fois les modes futurs agrégés de manière statistique, une anomalie est détectée lorsque l’ensemble de mouvements générés n’est pas pertinent par rapport au futur réel. Nous validons notre modèle sur quatre benchmarks établis : UBnormal, HR-UBnormal, HR-STC et HR-Avenue, avec des expériences étendues dépassant les résultats de l’état de l’art.