HyperAIHyperAI

Command Palette

Search for a command to run...

vor 3 Monaten

Cross-Modal BERT für Text-Audio-Gefühlsanalyse

{Kai Gao Hua Xu Kaicheng Yang}

Abstract

Multimodale Sentimentanalyse ist ein aufkommendes Forschungsfeld, das darauf abzielt, Maschinen zu befähigen, Emotionen zu erkennen, zu interpretieren und auszudrücken. Durch die intermodale Wechselwirkung können wir umfassendere emotionale Merkmale des Sprechers erfassen. Bidirektionale Darstellungen aus Transformers (BERT) ist ein effizientes vortrainiertes Sprachrepräsentationsmodell. Durch Feintuning wurde es bereits bei elf Aufgaben des natürlichen Sprachverstehens, wie z. B. Fragebeantwortung und natürliche Sprachinferenz, zu neuen SOTA-Ergebnissen geführt. Allerdings basieren die meisten vorherigen Arbeiten beim Feintuning von BERT ausschließlich auf Textdaten. Wie eine bessere Repräsentation durch Einbeziehung multimodaler Informationen erzielt werden kann, bleibt weiterhin eine lohnende Forschungsfrage. In diesem Artikel stellen wir das Cross-Modal BERT (CM-BERT) vor, das auf der Interaktion zwischen Text- und Audiomodality basiert, um das vortrainierte BERT-Modell zu feintunen. Als zentrale Komponente des CM-BERT wurde das maskierte multimodale Aufmerksamkeitsmechanismus entworfen, der die Gewichte der Wörter dynamisch anhand der kombinierten Informationen aus Text- und Audiomodality anpasst. Wir evaluieren unsere Methode anhand der öffentlichen multimodalen Sentimentanalyse-Datensätze CMU-MOSI und CMU-MOSEI. Die Experimente zeigen, dass unsere Methode die Leistung in allen Metriken signifikant gegenüber früheren Baselines und der rein textbasierten Feinjustierung von BERT verbessert. Darüber hinaus visualisieren wir die maskierten multimodalen Aufmerksamkeiten und belegen, dass das Modell die Gewichte der Wörter sinnvoll durch die Einbeziehung von Audioinformationen anpassen kann.

Benchmarks

BenchmarkMethodikMetriken
multimodal-sentiment-analysis-on-mosiCM-BERT
Accuracy: 84.5%
F1 score: 84.5%

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Cross-Modal BERT für Text-Audio-Gefühlsanalyse | Forschungsarbeiten | HyperAI