vor 3 Monaten

Cross-Modal BERT für Text-Audio-Gefühlsanalyse

Details der Forschungsarbeit anzeigen Code anzeigen

{Kai Gao Hua Xu Kaicheng Yang}

Abstract

Multimodale Sentimentanalyse ist ein aufkommendes Forschungsfeld, das darauf abzielt, Maschinen zu befähigen, Emotionen zu erkennen, zu interpretieren und auszudrücken. Durch die intermodale Wechselwirkung können wir umfassendere emotionale Merkmale des Sprechers erfassen. Bidirektionale Darstellungen aus Transformers (BERT) ist ein effizientes vortrainiertes Sprachrepräsentationsmodell. Durch Feintuning wurde es bereits bei elf Aufgaben des natürlichen Sprachverstehens, wie z. B. Fragebeantwortung und natürliche Sprachinferenz, zu neuen SOTA-Ergebnissen geführt. Allerdings basieren die meisten vorherigen Arbeiten beim Feintuning von BERT ausschließlich auf Textdaten. Wie eine bessere Repräsentation durch Einbeziehung multimodaler Informationen erzielt werden kann, bleibt weiterhin eine lohnende Forschungsfrage. In diesem Artikel stellen wir das Cross-Modal BERT (CM-BERT) vor, das auf der Interaktion zwischen Text- und Audiomodality basiert, um das vortrainierte BERT-Modell zu feintunen. Als zentrale Komponente des CM-BERT wurde das maskierte multimodale Aufmerksamkeitsmechanismus entworfen, der die Gewichte der Wörter dynamisch anhand der kombinierten Informationen aus Text- und Audiomodality anpasst. Wir evaluieren unsere Methode anhand der öffentlichen multimodalen Sentimentanalyse-Datensätze CMU-MOSI und CMU-MOSEI. Die Experimente zeigen, dass unsere Methode die Leistung in allen Metriken signifikant gegenüber früheren Baselines und der rein textbasierten Feinjustierung von BERT verbessert. Darüber hinaus visualisieren wir die maskierten multimodalen Aufmerksamkeiten und belegen, dass das Modell die Gewichte der Wörter sinnvoll durch die Einbeziehung von Audioinformationen anpassen kann.

Benchmarks

Benchmark	Methodik	Metriken
multimodal-sentiment-analysis-on-mosi	CM-BERT	Accuracy: 84.5% F1 score: 84.5%

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp