Transformateur à goulot d'étranglement multi-échelle pour la détection faiblement supervisée de violence multimodale

La détection faiblement supervisée de la violence multimodale vise à apprendre un modèle de détection de violence en exploitant plusieurs modalités telles que les images RGB, le flux optique et l'audio, alors que seules des annotations au niveau vidéo sont disponibles. Dans la quête d'une détection efficace de la violence multimodale (MVD), trois défis clés ont été identifiés : la redondance d'information, l'asymétrie des modalités et l'asynchronie des modalités. Dans ce travail, nous proposons une nouvelle méthode de MVD faiblement supervisée qui aborde explicitement ces défis. Plus précisément, nous introduisons un module de fusion basé sur un transformateur multifocal (MSBT) qui utilise un nombre réduit de jetons multifocaux pour condenser progressivement l'information et fusionner chaque paire de modalités, tout en mettant en œuvre un schéma de pondération basé sur les jetons multifocaux pour mettre en évidence les caractéristiques fusionnées les plus importantes. De plus, nous proposons une perte de contraste temporelle pour aligner sémantiquement les caractéristiques fusionnées par paires. Les expériences menées sur le jeu de données XD-Violence à grande échelle montrent que la méthode proposée atteint des performances d'état de l'art. Le code est disponible à l'adresse suivante : https://github.com/shengyangsun/MSBT.