HyperAIHyperAI
il y a 18 jours

Transfert de domaine multimodal adversaire pour l'analyse de sentiment au niveau vidéo

{Wang Yanan; Wu Jianming; Furumai Kazuaki; Wada Shinya; Kurihara Satoshi}
Résumé

L’analyse fine du sentiment à l’échelle vidéo constitue une tâche difficile, car elle exige que les systèmes acquièrent des représentations multimodales discriminantes capables de capturer les différences de sentiment à travers diverses modalités. Toutefois, en raison des distributions variées des différentes modalités et du fait que les étiquettes multimodales unifiées ne sont pas toujours adaptées à l’apprentissage unimodal, la distance entre les représentations unimodales augmente, ce qui entrave l’apprentissage de représentations multimodales discriminantes. Dans ce travail, afin d’obtenir des représentations multimodales plus discriminantes et d’améliorer davantage les performances des systèmes, nous proposons une méthode de transfert de domaine multimodal adversaire basée sur un VAE (VAE-AMDT), que nous entraînons conjointement avec un module à multi-attention afin de réduire la différence de distance entre les représentations unimodales. Nous appliquons d’abord un auto-encodeur variationnel (VAE) pour faire en sorte que les représentations visuelles, linguistiques et acoustiques suivent une même distribution commune, puis introduisons un apprentissage adversaire afin de transférer toutes les représentations unimodales vers un espace d’embedding conjoint. En conséquence, nous fusionnons les différentes modalités dans cet espace d’embedding conjoint grâce au module à multi-attention, qui intègre une attention auto, une attention croisée et une attention triple, permettant ainsi de mettre en évidence les représentations émotionnelles importantes dans le temps et selon la modalité. Notre méthode améliore le score F1 de l’état de l’art de 3,6 % sur le jeu de données MOSI et de 2,9 % sur MOSEI, démontrant ainsi son efficacité pour obtenir des représentations multimodales discriminantes dans le cadre de l’analyse fine du sentiment à l’échelle vidéo.

Transfert de domaine multimodal adversaire pour l'analyse de sentiment au niveau vidéo | Articles de recherche récents | HyperAI