HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage contrastif d'instances sensible à la modalité avec auto-distillation pour la détection faiblement supervisée de violence audiovisuelle

Jiashuo Yu Jinyu Liu Ying Cheng Rui Feng Yuejie Zhang

Résumé

La détection faiblement supervisée de violence audio-visuelle vise à distinguer des extraits contenant des événements violents multimodaux à partir d’étiquettes au niveau de la vidéo. De nombreuses méthodes antérieures effectuent l’intégration et l’interaction audio-visuelle de manière précoce ou intermédiaire, tout en négligeant toutefois la hétérogénéité entre modalités dans le cadre de la supervision faible. Dans cet article, nous analysons les phénomènes d’asynchronie modale et d’instances indifférenciées dans le cadre de l’apprentissage par lots multiples (Multiple Instance Learning, MIL), et étudions plus en profondeur leur impact négatif sur l’apprentissage audio-visuel faiblement supervisé. Pour résoudre ces problèmes, nous proposons une stratégie d’apprentissage contrastif d’instances consciente des modalités avec auto-distillation (MACIL-SD). Plus précisément, nous utilisons un réseau à deux chemins léger pour générer des « sacs » audio et visuels, dans lesquels les instances de fond unimodales, violentes et normales sont regroupées de manière non supervisée en « semi-sacs ». Ensuite, les représentations des « semi-sacs » violents audio et visuels sont assemblées en paires positives, tandis que les « semi-sacs » violents sont combinés avec les instances de fond et normales de la modalité opposée pour former des paires négatives contrastives. Par ailleurs, un module d’auto-distillation est appliqué afin de transférer les connaissances visuelles unimodales vers le modèle audio-visuel, ce qui permet de réduire le bruit et de réduire l’écart sémantique entre les caractéristiques unimodales et multimodales. Les expérimentations montrent que notre cadre surpasser les méthodes précédentes avec une complexité plus faible sur le grand jeu de données XD-Violence. Les résultats démontrent également que notre approche peut être utilisée comme modules plug-in pour améliorer d’autres réseaux. Le code est disponible à l’adresse suivante : https://github.com/JustinYuu/MACIL_SD.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp