HyperAIHyperAI
il y a 17 jours

Transformateur vidéo à efficacité énergétique des données pour la détection de violence

{almamon rasool abdali}
Résumé

Dans les villes intelligentes, la détection des événements violents est essentielle pour assurer la sécurité urbaine. Plusieurs études ont été menées sur ce sujet, mettant l’accent sur le réseau de neurones à convolution 2D (2D-CNN) pour extraire les caractéristiques spatiales à partir de chaque trame, suivies d’une variante des réseaux de neurones récurrents (RNN) pour apprendre les caractéristiques temporelles. Par ailleurs, les réseaux transformer ont obtenu des résultats remarquables dans de nombreux domaines. Toutefois, le principal obstacle à leur utilisation réside dans la nécessité de grandes quantités de données pour atteindre de bons résultats. Dans ce travail, nous proposons une architecture de transformer vidéo efficace en données (DeVTr), fondée sur le réseau transformer, comme méthode d’apprentissage spatio-temporel, en intégrant un réseau de neurones convolutionnel 2D pré-entraîné (2D-CNN) comme couche d’encodage pour les données d’entrée. Le modèle a été entraîné et évalué sur le jeu de données réel de violence (RLVS), atteignant une précision de 96,25 %. Une comparaison des résultats de la méthode proposée avec les approches antérieures démontre que celle-ci obtient les meilleurs résultats parmi toutes les études précédentes en matière de détection des événements violents.