HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 3 mois

BERT multimodal pour l'analyse de sentiment texte-audio

{Kai Gao Hua Xu Kaicheng Yang}

Résumé

L’analyse multimodale des sentiments est un domaine de recherche émergent visant à permettre aux machines de reconnaître, interpréter et exprimer des émotions. Grâce à l’interaction entre modalités, il devient possible d’obtenir des caractéristiques émotionnelles plus complètes du locuteur. Le modèle pré-entraîné de représentation linguistique Bidirectional Encoder Representations from Transformers (BERT) s’est révélé particulièrement efficace. Son adaptation fine (fine-tuning) a permis d’atteindre de nouveaux résultats d’état de l’art sur onze tâches de traitement du langage naturel, telles que la réponse aux questions ou l’inférence linguistique. Toutefois, la plupart des travaux antérieurs n’ont appliqué l’adaptation fine de BERT qu’à partir de données textuelles, et la question de l’apprentissage de représentations améliorées en intégrant des informations multimodales reste un sujet d’étude pertinent. Dans cet article, nous proposons CM-BERT, un modèle basé sur l’interaction entre les modalités textuelle et audio pour adapter finement le modèle pré-entraîné BERT. En tant qu’unité centrale de CM-BERT, l’attention multimodale masquée est conçue pour ajuster dynamiquement les poids des mots en combinant les informations provenant des deux modalités textuelle et audio. Nous évaluons notre méthode sur des jeux de données publics d’analyse multimodale des sentiments, à savoir CMU-MOSI et CMU-MOSEI. Les résultats expérimentaux montrent une amélioration significative de la performance sur toutes les métriques par rapport aux approches antérieures ainsi qu’à l’adaptation fine de BERT uniquement basée sur le texte. En outre, nous visualisons l’attention multimodale masquée et démontrons qu’elle permet un ajustement raisonnable des poids des mots grâce à l’information audio.

Benchmarks

BenchmarkMéthodologieMétriques
multimodal-sentiment-analysis-on-mosiCM-BERT
Accuracy: 84.5%
F1 score: 84.5%

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
BERT multimodal pour l'analyse de sentiment texte-audio | Articles de recherche | HyperAI