HyperAIHyperAI
vor 18 Tagen

Cross-Modal BERT für Text-Audio-Gefühlsanalyse

{Kai Gao, Hua Xu, Kaicheng Yang}
Abstract

Multimodale Sentimentanalyse ist ein aufkommendes Forschungsfeld, das darauf abzielt, Maschinen zu befähigen, Emotionen zu erkennen, zu interpretieren und auszudrücken. Durch die intermodale Wechselwirkung können wir umfassendere emotionale Merkmale des Sprechers erfassen. Bidirektionale Darstellungen aus Transformers (BERT) ist ein effizientes vortrainiertes Sprachrepräsentationsmodell. Durch Feintuning wurde es bereits bei elf Aufgaben des natürlichen Sprachverstehens, wie z. B. Fragebeantwortung und natürliche Sprachinferenz, zu neuen SOTA-Ergebnissen geführt. Allerdings basieren die meisten vorherigen Arbeiten beim Feintuning von BERT ausschließlich auf Textdaten. Wie eine bessere Repräsentation durch Einbeziehung multimodaler Informationen erzielt werden kann, bleibt weiterhin eine lohnende Forschungsfrage. In diesem Artikel stellen wir das Cross-Modal BERT (CM-BERT) vor, das auf der Interaktion zwischen Text- und Audiomodality basiert, um das vortrainierte BERT-Modell zu feintunen. Als zentrale Komponente des CM-BERT wurde das maskierte multimodale Aufmerksamkeitsmechanismus entworfen, der die Gewichte der Wörter dynamisch anhand der kombinierten Informationen aus Text- und Audiomodality anpasst. Wir evaluieren unsere Methode anhand der öffentlichen multimodalen Sentimentanalyse-Datensätze CMU-MOSI und CMU-MOSEI. Die Experimente zeigen, dass unsere Methode die Leistung in allen Metriken signifikant gegenüber früheren Baselines und der rein textbasierten Feinjustierung von BERT verbessert. Darüber hinaus visualisieren wir die maskierten multimodalen Aufmerksamkeiten und belegen, dass das Modell die Gewichte der Wörter sinnvoll durch die Einbeziehung von Audioinformationen anpassen kann.