il y a 8 mois

Résumé

La détection faiblement supervisée de la violence multimodale vise à apprendre un modèle de détection de violence en exploitant plusieurs modalités telles que les images RGB, le flux optique et l'audio, alors que seules des annotations au niveau vidéo sont disponibles. Dans la quête d'une détection efficace de la violence multimodale (MVD), trois défis clés ont été identifiés : la redondance d'information, l'asymétrie des modalités et l'asynchronie des modalités. Dans ce travail, nous proposons une nouvelle méthode de MVD faiblement supervisée qui aborde explicitement ces défis. Plus précisément, nous introduisons un module de fusion basé sur un transformateur multifocal (MSBT) qui utilise un nombre réduit de jetons multifocaux pour condenser progressivement l'information et fusionner chaque paire de modalités, tout en mettant en œuvre un schéma de pondération basé sur les jetons multifocaux pour mettre en évidence les caractéristiques fusionnées les plus importantes. De plus, nous proposons une perte de contraste temporelle pour aligner sémantiquement les caractéristiques fusionnées par paires. Les expériences menées sur le jeu de données XD-Violence à grande échelle montrent que la méthode proposée atteint des performances d'état de l'art. Le code est disponible à l'adresse suivante : https://github.com/shengyangsun/MSBT.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Multimodal

Reconnaissance D'action

Multimodal

Vision Par Ordinateur

Tâche

Shengyang Sun Jianwei Ma

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Multimodal

Reconnaissance D'action

Multimodal

Vision Par Ordinateur

Tâche

Shengyang Sun Jianwei Ma

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Transformateur à goulot d'étranglement multi-échelle pour la détection faiblement supervisée de violence multimodale | Articles | HyperAI

Command Palette

Transformateur à goulot d'étranglement multi-échelle pour la détection faiblement supervisée de violence multimodale

Shengyang Sun Jianwei Ma

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Transformateur à goulot d'étranglement multi-échelle pour la détection faiblement supervisée de violence multimodale

Shengyang Sun Jianwei Ma

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Transformateur à goulot d'étranglement multi-échelle pour la détection faiblement supervisée de violence multimodale

Shengyang Sun Jianwei Ma

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters