Apprentissage d'une détection de violence audiovisuelle à supervision faible dans l'espace hyperbolique

Ces dernières années, la détection faiblement supervisée de violences audiovisuelles a suscité un intérêt croissant. L’objectif de cette tâche consiste à identifier les segments violents au sein de données multimodales à partir d’étiquettes au niveau de la vidéo. Malgré les progrès réalisés dans ce domaine, les réseaux neuronaux euclidiens traditionnels, utilisés dans les travaux antérieurs, rencontrent des difficultés à capturer des représentations fortement discriminantes en raison des limites de l’espace des caractéristiques. Pour surmonter ce défi, nous proposons HyperVD, un cadre novateur qui apprend des embeddings de fragments dans un espace hyperbolique afin d’améliorer la discrimination du modèle. Notre architecture comprend un module de fusion par détour pour la fusion multimodale, qui atténue efficacement les incohérences entre les signaux audio et visuels. En outre, nous introduisons deux branches de réseaux de convolution de graphes entièrement hyperboliques, conçues pour explorer les similarités de caractéristiques et les relations temporelles entre les fragments dans l’espace hyperbolique. En apprenant les représentations des fragments dans cet espace, le cadre parvient à capturer de manière efficace les différences sémantiques entre les événements violents et les événements normaux. Des expériences étendues sur le benchmark XD-Violence montrent que notre méthode surpasser largement les approches de pointe.