HyperAIHyperAI
il y a 8 jours

Non seulement regarder, mais aussi écouter : apprentissage de la détection de la violence multimodale sous supervision faible

Peng Wu, Jing Liu, Yujia Shi, Yujia Sun, Fangtao Shao, Zhaoyang Wu, Zhiwei Yang
Non seulement regarder, mais aussi écouter : apprentissage de la détection de la violence multimodale sous supervision faible
Résumé

La détection de la violence a fait l’objet de nombreuses études en vision par ordinateur depuis de nombreuses années. Toutefois, les travaux antérieurs sont soit superficiels — par exemple, la classification de courtes séquences vidéo, dans une seule scène — soit insuffisamment approfondis — par exemple, l’usage d’une seule modalité ou de caractéristiques manuellement conçues dans un cadre multimodal. Pour remédier à ces limites, nous proposons dans ce travail la première mise en ligne d’un grand jeu de données à plusieurs scènes, nommé XD-Violence, dont la durée totale s’élève à 217 heures, comprenant 4 754 vidéos non tronquées accompagnées de signaux audio et d’étiquettes faibles. Ensuite, nous introduisons un réseau neuronal composé de trois branches parallèles permettant de capturer différentes relations entre les segments vidéo et d’intégrer efficacement les caractéristiques : la branche globale modélise les dépendances à longue portée grâce à un prior de similarité, la branche localisée capte les relations spatiales locales à l’aide d’un prior de proximité, tandis que la branche de score capture dynamiquement la proximité des scores prédits. Par ailleurs, notre méthode intègre également un approximateur afin de répondre aux exigences de détection en temps réel. Nos expérimentations montrent que notre approche surpasse les méthodes de pointe existantes sur notre jeu de données publiée ainsi que sur d’autres benchmarks établis. En outre, les résultats expérimentaux étendus démontrent l’effet positif de l’entrée multimodale (audio-visuelle) et de la modélisation des relations entre les modalités. Le code source et le jeu de données seront disponibles à l’adresse suivante : https://roc-ng.github.io/XD-Violence/.

Non seulement regarder, mais aussi écouter : apprentissage de la détection de la violence multimodale sous supervision faible | Articles de recherche récents | HyperAI