BERT multimodal pour l'analyse de sentiment texte-audio
L’analyse multimodale des sentiments est un domaine de recherche émergent visant à permettre aux machines de reconnaître, interpréter et exprimer des émotions. Grâce à l’interaction entre modalités, il devient possible d’obtenir des caractéristiques émotionnelles plus complètes du locuteur. Le modèle pré-entraîné de représentation linguistique Bidirectional Encoder Representations from Transformers (BERT) s’est révélé particulièrement efficace. Son adaptation fine (fine-tuning) a permis d’atteindre de nouveaux résultats d’état de l’art sur onze tâches de traitement du langage naturel, telles que la réponse aux questions ou l’inférence linguistique. Toutefois, la plupart des travaux antérieurs n’ont appliqué l’adaptation fine de BERT qu’à partir de données textuelles, et la question de l’apprentissage de représentations améliorées en intégrant des informations multimodales reste un sujet d’étude pertinent. Dans cet article, nous proposons CM-BERT, un modèle basé sur l’interaction entre les modalités textuelle et audio pour adapter finement le modèle pré-entraîné BERT. En tant qu’unité centrale de CM-BERT, l’attention multimodale masquée est conçue pour ajuster dynamiquement les poids des mots en combinant les informations provenant des deux modalités textuelle et audio. Nous évaluons notre méthode sur des jeux de données publics d’analyse multimodale des sentiments, à savoir CMU-MOSI et CMU-MOSEI. Les résultats expérimentaux montrent une amélioration significative de la performance sur toutes les métriques par rapport aux approches antérieures ainsi qu’à l’adaptation fine de BERT uniquement basée sur le texte. En outre, nous visualisons l’attention multimodale masquée et démontrons qu’elle permet un ajustement raisonnable des poids des mots grâce à l’information audio.