Recherchez les anomalies dans votre environnement : Détection faiblement supervisée des anomalies par apprentissage des relations contexte-mouvement

La détection d’anomalies vidéo à supervision faible consiste à détecter des anomalies au niveau des trames à partir de données d’entraînement étiquetées au niveau des vidéos. Il est difficile d’extraire des caractéristiques représentatives des classes en s’appuyant sur une supervision minimale fournie par des étiquettes faibles, notamment lorsqu’on utilise une seule branche d’architecture principale. En outre, dans les scénarios du monde réel, la frontière entre le normal et l’anormal est floue et dépend fortement du contexte : par exemple, un mouvement de course d’une personne peut être anormal sur une route, mais tout à fait normal dans un terrain de jeu. Ainsi, notre objectif est d’extraire des caractéristiques discriminantes en élargissant l’écart relatif entre les représentations des classes à partir d’une seule branche. Dans la méthode proposée, appelée apprentissage des caractéristiques activées par classe (CLAV), les caractéristiques sont extraites selon les poids implicites activés en fonction de la classe, puis l’écart est amplifié grâce à une stratégie d’apprentissage basée sur les distances relatives. En outre, comme la relation entre le contexte et le mouvement joue un rôle crucial pour identifier les anomalies dans des scènes complexes et variées, nous proposons un module d’interrelation contexte-mouvement (CoMo), qui modélise explicitement la relation entre l’apparence du contexte environnant et le mouvement, plutôt que de se limiter uniquement aux dépendances temporelles ou à l’information de mouvement. La méthode proposée atteint des performances de pointe (SOTA) sur quatre benchmarks, y compris des jeux de données réels à grande échelle, et nous démontrons l’importance des informations relationnelles à travers une analyse qualitative et une évaluation de la capacité de généralisation.