HyperAIHyperAI
il y a 2 mois

Détection d'anomalies vidéo centrée sur l'humain par tokenisation spatio-temporelle de la posture et transformer

Ghazal Alinezhad Noghre; Armin Danesh Pazho; Hamed Tabkhi
Détection d'anomalies vidéo centrée sur l'humain par tokenisation spatio-temporelle de la posture et transformer
Résumé

La détection d'anomalies dans les vidéos (VAD) représente un défi majeur en vision par ordinateur, notamment en raison de la nature imprévisible et rare des événements anormaux, ainsi que des environnements divers et dynamiques dans lesquels ils se produisent. La détection d'anomalies centrée sur l'humain, une spécialité au sein de ce domaine, présente des complexités supplémentaires, telles que les variations du comportement humain, les biais potentiels dans les données et les préoccupations importantes liées à la vie privée des sujets humains. Ces problèmes compliquent le développement de modèles à la fois robustes et généralisables. Pour relever ces défis, les avancées récentes ont porté sur la détection d'anomalies basée sur la posture (pose-based VAD), qui utilise la posture humaine comme caractéristique de haut niveau pour atténuer les préoccupations relatives à la vie privée, réduire les biais d'apparence et minimiser l'interférence du fond. Dans cet article, nous présentons SPARTA, une nouvelle architecture basée sur les transformateurs conçue spécifiquement pour la détection d'anomalies centrée sur l'humain et basée sur la posture. SPARTA introduit une méthode innovante de tokenisation Spatio-Temporelle de la Posture et de la Posture Relative (ST-PRP) qui produit une représentation enrichie du mouvement humain au fil du temps. Cette approche garantit que le mécanisme d'attention du transformateur capture simultanément les motifs spatiaux et temporels, plutôt que de se concentrer uniquement sur un aspect. L'ajout de la posture relative met davantage en évidence les écarts subtils par rapport aux mouvements normaux des humains. Le cœur de l'architecture est constitué d'un nouveau transformateur Unified Encoder Twin Decoders (UETD), qui améliore considérablement la détection des comportements anormaux dans les données vidéo. Des évaluations approfondies réalisées sur plusieurs jeux de données de référence montrent que SPARTA dépasse constamment les méthodes existantes, établissant un nouvel état de l'art en matière de détection d'anomalies basée sur la posture.

Détection d'anomalies vidéo centrée sur l'humain par tokenisation spatio-temporelle de la posture et transformer | Articles de recherche récents | HyperAI