HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur à goulot d'étranglement multi-échelle pour la détection faiblement supervisée de violence multimodale

Shengyang Sun Jianwei Ma

Résumé

La détection faiblement supervisée de la violence multimodale vise à apprendre un modèle de détection de violence en exploitant plusieurs modalités telles que les images RGB, le flux optique et l'audio, alors que seules des annotations au niveau vidéo sont disponibles. Dans la quête d'une détection efficace de la violence multimodale (MVD), trois défis clés ont été identifiés : la redondance d'information, l'asymétrie des modalités et l'asynchronie des modalités. Dans ce travail, nous proposons une nouvelle méthode de MVD faiblement supervisée qui aborde explicitement ces défis. Plus précisément, nous introduisons un module de fusion basé sur un transformateur multifocal (MSBT) qui utilise un nombre réduit de jetons multifocaux pour condenser progressivement l'information et fusionner chaque paire de modalités, tout en mettant en œuvre un schéma de pondération basé sur les jetons multifocaux pour mettre en évidence les caractéristiques fusionnées les plus importantes. De plus, nous proposons une perte de contraste temporelle pour aligner sémantiquement les caractéristiques fusionnées par paires. Les expériences menées sur le jeu de données XD-Violence à grande échelle montrent que la méthode proposée atteint des performances d'état de l'art. Le code est disponible à l'adresse suivante : https://github.com/shengyangsun/MSBT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp