Détection non supervisée d'anomalies à partir d'images de profondeur à temps de vol

La détection d’anomalies vidéo (VAD) vise à identifier automatiquement des événements anormaux dans des séquences vidéo. Les modalités de données principales utilisées par les systèmes actuels de VAD sont des images en niveaux de gris ou en RGB. L’utilisation de données de profondeur dans ce contexte reste quant à elle peu explorée, malgré le fait que les images de profondeur soient largement utilisées dans de nombreuses autres disciplines de la vision par ordinateur et que les capteurs de profondeur à faible coût deviennent de plus en plus accessibles. Nous évaluons l’application de méthodes existantes basées sur les autoencodeurs sur des vidéos de profondeur, et proposons une manière d’exploiter les avantages des données de profondeur en les intégrant dans la fonction de perte. L’entraînement est effectué de manière non supervisée à l’aide de séquences normales, sans nécessiter d’étiquetages supplémentaires. Nous montrons que la profondeur permet une extraction aisée d’informations auxiliaires utiles pour l’analyse de scène, sous la forme d’un masque d’objet devant, et démontrons son impact positif sur la performance de détection d’anomalies à travers une évaluation sur un grand jeu de données public, pour lequel nous sommes également les premiers à présenter des résultats.