HyperAIHyperAI
il y a 2 mois

Alignement d'abord, puis Fusion : Une Nouvelle Méthode de Détection Multimodale de la Violence Faiblement Supervisée

Jin, Wenping ; Zhu, Li ; Sun, Jing
Alignement d'abord, puis Fusion : Une Nouvelle Méthode de Détection Multimodale de la Violence Faiblement Supervisée
Résumé

La détection faiblement supervisée de la violence fait référence à la technique d'entraînement de modèles pour identifier les segments violents dans des vidéos en utilisant uniquement des étiquettes au niveau vidéo. Parmi ces approches, la détection multimodale de la violence, qui intègre des modalités telles que l'audio et le flux optique, présente un grand potentiel. Les méthodes existantes dans ce domaine se concentrent principalement sur la conception de modèles de fusion multimodale pour résoudre les disparités entre les modalités. En revanche, nous adoptons une approche différente ; nous exploitons les disparités inhérentes entre les modalités dans la représentation des événements violents pour proposer une nouvelle méthode d'alignement sémantique des caractéristiques multimodales. Cette méthode mappe de manière éparse les caractéristiques sémantiques locales, transitoires et moins informatives (telles que l'audio et le flux optique) dans l'espace sémantique RGB plus informatif. Par un processus itératif, la méthode identifie le sous-espace d'appariement non nul approprié et aligne les représentations d'événements spécifiques à chaque modalité sur la base de ce sous-espace, permettant ainsi l'exploitation complète des informations provenant de toutes les modalités lors de l'étape ultérieure de fusion multimodale. À partir de là, nous concevons un nouveau cadre de détection faiblement supervisée de la violence composé d'un apprentissage par multiples instances unimodaux pour extraire des caractéristiques sémantiques unimodales, d'une alignment multimodale, d'une fusion multimodale et d'une détection finale. Les résultats expérimentaux sur des jeux de données de référence montrent l'efficacité de notre méthode, atteignant une précision moyenne (AP) de 86,07 % sur le jeu de données XD-Violence. Notre code est disponible à l'adresse https://github.com/xjpp2016/MAVD.

Alignement d'abord, puis Fusion : Une Nouvelle Méthode de Détection Multimodale de la Violence Faiblement Supervisée | Articles de recherche récents | HyperAI