Analyse de sentiment dépendante du contexte dans les vidéos générées par les utilisateurs

L’analyse multimodale des sentiments est un domaine de recherche en plein développement, qui consiste à identifier les sentiments présents dans des vidéos. Les recherches actuelles considèrent les énoncés comme des entités indépendantes, c’est-à-dire qu’elles ignorent les dépendances et relations existant entre les énoncés d’une même vidéo. Dans cet article, nous proposons un modèle basé sur les LSTM (réseaux de neurones à mémoire à long terme) permettant aux énoncés de capturer des informations contextuelles provenant de leur environnement au sein de la même vidéo, ce qui contribue ainsi à améliorer le processus de classification. Notre méthode obtient une amélioration de performance de 5 à 10 % par rapport à l’état de l’art, tout en démontrant une forte robustesse en termes de généralisation.