HyperAIHyperAI
il y a 8 jours

Apprentissage contrastif d'instances sensible à la modalité avec auto-distillation pour la détection faiblement supervisée de violence audiovisuelle

Jiashuo Yu, Jinyu Liu, Ying Cheng, Rui Feng, Yuejie Zhang
Apprentissage contrastif d'instances sensible à la modalité avec auto-distillation pour la détection faiblement supervisée de violence audiovisuelle
Résumé

La détection faiblement supervisée de violence audio-visuelle vise à distinguer des extraits contenant des événements violents multimodaux à partir d’étiquettes au niveau de la vidéo. De nombreuses méthodes antérieures effectuent l’intégration et l’interaction audio-visuelle de manière précoce ou intermédiaire, tout en négligeant toutefois la hétérogénéité entre modalités dans le cadre de la supervision faible. Dans cet article, nous analysons les phénomènes d’asynchronie modale et d’instances indifférenciées dans le cadre de l’apprentissage par lots multiples (Multiple Instance Learning, MIL), et étudions plus en profondeur leur impact négatif sur l’apprentissage audio-visuel faiblement supervisé. Pour résoudre ces problèmes, nous proposons une stratégie d’apprentissage contrastif d’instances consciente des modalités avec auto-distillation (MACIL-SD). Plus précisément, nous utilisons un réseau à deux chemins léger pour générer des « sacs » audio et visuels, dans lesquels les instances de fond unimodales, violentes et normales sont regroupées de manière non supervisée en « semi-sacs ». Ensuite, les représentations des « semi-sacs » violents audio et visuels sont assemblées en paires positives, tandis que les « semi-sacs » violents sont combinés avec les instances de fond et normales de la modalité opposée pour former des paires négatives contrastives. Par ailleurs, un module d’auto-distillation est appliqué afin de transférer les connaissances visuelles unimodales vers le modèle audio-visuel, ce qui permet de réduire le bruit et de réduire l’écart sémantique entre les caractéristiques unimodales et multimodales. Les expérimentations montrent que notre cadre surpasser les méthodes précédentes avec une complexité plus faible sur le grand jeu de données XD-Violence. Les résultats démontrent également que notre approche peut être utilisée comme modules plug-in pour améliorer d’autres réseaux. Le code est disponible à l’adresse suivante : https://github.com/JustinYuu/MACIL_SD.

Apprentissage contrastif d'instances sensible à la modalité avec auto-distillation pour la détection faiblement supervisée de violence audiovisuelle | Articles de recherche récents | HyperAI