il y a 8 jours

Détection d'anomalies vidéo faiblement supervisée avec apprentissage robuste de la magnitude des caractéristiques temporelles

Yu Tian, Guansong Pang, Yuanhong Chen, Rajvinder Singh, Johan W. Verjans, Gustavo Carneiro

Résumé

La détection d’anomalies à partir d’étiquettes vidéo faiblement supervisées est généralement formulée comme un problème d’apprentissage par instances multiples (MIL), dans lequel l’objectif est d’identifier les segments contenant des événements anormaux, chaque vidéo étant représentée comme un sac de segments vidéo. Bien que les méthodes actuelles affichent des performances de détection efficaces, leur reconnaissance des instances positives — c’est-à-dire les segments anormaux rares présents dans les vidéos anormales — est fortement biaisée par les instances négatives dominantes, en particulier lorsque les événements anormaux sont des anomalies subtiles présentant uniquement de légères différences par rapport aux événements normaux. Ce problème est aggravé par de nombreuses méthodes qui négligent les dépendances temporelles importantes au sein des vidéos. Pour remédier à ce défaut, nous proposons une nouvelle méthode théoriquement fondée, nommée apprentissage robuste de la magnitude des caractéristiques temporelles (RTFM), qui entraîne une fonction d’apprentissage de la magnitude des caractéristiques afin de reconnaître efficacement les instances positives, améliorant ainsi considérablement la robustesse de l’approche MIL face aux instances négatives provenant des vidéos anormales. La méthode RTFM intègre également des convolutions dilatées et des mécanismes d’attention auto-attention pour capturer les dépendances temporelles à la fois à long et à court terme, permettant ainsi une apprentissage plus fidèle de la magnitude des caractéristiques. Des expérimentations étendues montrent que le modèle MIL amélioré par RTFM (i) surpasse de manière significative plusieurs méthodes de pointe sur quatre jeux de données standard (ShanghaiTech, UCF-Crime, XD-Violence et UCSD-Peds), et (ii) atteint une meilleure discriminabilité des anomalies subtiles ainsi qu’une efficacité accrue en termes d’échantillonnage. Le code est disponible à l’adresse suivante : https://github.com/tianyu0207/RTFM.