Détection d'anomalies vidéo basée sur plusieurs instances à l'aide d'une encodage-décodage temporel profond

Dans cet article, nous proposons une solution faiblement supervisée basée sur une architecture d’encodage-décodage profonde pour la détection d’anomalies dans des vidéos de surveillance, en s’appuyant sur l’apprentissage par instances multiples (Multiple Instance Learning, MIL). La méthode proposée utilise à la fois des extraits vidéo anormaux et normaux pendant la phase d’entraînement, dans un cadre d’apprentissage par instances multiples où une vidéo est traitée comme un « sac » et les extraits vidéo (clips) comme des « instances » appartenant à ce sac. Notre contribution principale réside dans l’approche novatrice proposée pour modéliser les relations temporelles entre les instances vidéo. Contrairement à des approches classiques qui considèrent les clips comme des entités indépendantes, nous traitons les instances vidéo comme des données visuelles séquentielles. Nous introduisons un réseau profond temporel d’encodage conçu pour capturer l’évolution spatio-temporelle des instances vidéo au fil du temps. Par ailleurs, nous proposons une nouvelle fonction de perte, plus lisse que celles récemment présentées dans la littérature en vision par ordinateur, ce qui permet une convergence plus rapide et une meilleure tolérance aux minima locaux durant l’entraînement. L’approche d’encodage-décodage temporelle proposée, couplée à cette fonction de perte améliorée, est évaluée sur des études de simulation par rapport aux méthodes de pointe. Les résultats montrent que la méthode proposée atteint des performances équivalentes ou supérieures aux solutions actuelles de pointe pour la détection d’anomalies dans les applications de surveillance vidéo.