il y a 6 mois

Résumé

La détection faiblement supervisée de violence audio-visuelle vise à distinguer des extraits contenant des événements violents multimodaux à partir d’étiquettes au niveau de la vidéo. De nombreuses méthodes antérieures effectuent l’intégration et l’interaction audio-visuelle de manière précoce ou intermédiaire, tout en négligeant toutefois la hétérogénéité entre modalités dans le cadre de la supervision faible. Dans cet article, nous analysons les phénomènes d’asynchronie modale et d’instances indifférenciées dans le cadre de l’apprentissage par lots multiples (Multiple Instance Learning, MIL), et étudions plus en profondeur leur impact négatif sur l’apprentissage audio-visuel faiblement supervisé. Pour résoudre ces problèmes, nous proposons une stratégie d’apprentissage contrastif d’instances consciente des modalités avec auto-distillation (MACIL-SD). Plus précisément, nous utilisons un réseau à deux chemins léger pour générer des « sacs » audio et visuels, dans lesquels les instances de fond unimodales, violentes et normales sont regroupées de manière non supervisée en « semi-sacs ». Ensuite, les représentations des « semi-sacs » violents audio et visuels sont assemblées en paires positives, tandis que les « semi-sacs » violents sont combinés avec les instances de fond et normales de la modalité opposée pour former des paires négatives contrastives. Par ailleurs, un module d’auto-distillation est appliqué afin de transférer les connaissances visuelles unimodales vers le modèle audio-visuel, ce qui permet de réduire le bruit et de réduire l’écart sémantique entre les caractéristiques unimodales et multimodales. Les expérimentations montrent que notre cadre surpasser les méthodes précédentes avec une complexité plus faible sur le grand jeu de données XD-Violence. Les résultats démontrent également que notre approche peut être utilisée comme modules plug-in pour améliorer d’autres réseaux. Le code est disponible à l’adresse suivante : https://github.com/JustinYuu/MACIL_SD.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Jiashuo Yu Jinyu Liu Ying Cheng Rui Feng Yuejie Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Compréhension Vidéo

Multimodal

Vision Par Ordinateur

Tâche

Jiashuo Yu Jinyu Liu Ying Cheng Rui Feng Yuejie Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Apprentissage contrastif d'instances sensible à la modalité avec auto-distillation pour la détection faiblement supervisée de violence audiovisuelle

Jiashuo Yu Jinyu Liu Ying Cheng Rui Feng Yuejie Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage contrastif d'instances sensible à la modalité avec auto-distillation pour la détection faiblement supervisée de violence audiovisuelle

Jiashuo Yu Jinyu Liu Ying Cheng Rui Feng Yuejie Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Apprentissage contrastif d'instances sensible à la modalité avec auto-distillation pour la détection faiblement supervisée de violence audiovisuelle

Jiashuo Yu Jinyu Liu Ying Cheng Rui Feng Yuejie Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters