HyperAIHyperAI

Command Palette

Search for a command to run...

Anbruch der Transformer-Ära in der Sprachemotionserkennung: Schließung der Valenzlücke

Johannes Wagner Andreas Triantafyllopoulos Hagen Wierstorf Maximilian Schmitt Felix Burkhardt Florian Eyben Björn W. Schuller

Zusammenfassung

Neuere Fortschritte bei transformerbasierten Architekturen, die auf selbstüberwachtem Wege vortrainiert wurden, haben großes Potenzial für verschiedene Aufgaben im Bereich des maschinellen Lernens gezeigt. Im Audio-Bereich wurden solche Architekturen ebenfalls erfolgreich in der Spracherkennung von Emotionen (Speech Emotion Recognition, SER) eingesetzt. Allerdings haben bisherige Arbeiten die Auswirkungen von Modellgröße und Trainingsdaten auf die Leistung in nachgeschalteten Aufgaben nicht ausreichend evaluiert und geringe Aufmerksamkeit auf Aspekte wie Generalisierbarkeit, Robustheit, Fairness und Effizienz gewidmet. Der vorliegende Beitrag führt eine umfassende Analyse dieser Aspekte durch, basierend auf mehreren vortrainierten Varianten von wav2vec 2.0 und HuBERT, die wir auf die Dimensionen Erregung, Dominanz und Valenz des MSP-Podcast-Datensatzes fine-tunten, zusätzlich mit IEMOCAP und MOSI zur Prüfung der Cross-Corpus-Generalisierbarkeit. Sofern wir wissen, erreichen wir die beste Leistung bei der Valenzvorhersage ohne explizite linguistische Informationen, mit einem Konkordanzkorrelationskoeffizienten (CCC) von .638 auf MSP-Podcast. Darüber hinaus zeigen unsere Untersuchungen, dass transformerbasierte Architekturen gegenüber kleinen Störungen robuster sind als eine CNN-basierte Baseline und fair gegenüber biologischen Geschlechtergruppen, jedoch nicht gegenüber einzelnen Sprechern. Schließlich sind wir die ersten, die zeigen, dass ihr außergewöhnlicher Erfolg bei der Valenzvorhersage auf impliziten linguistischen Informationen beruht, die während des Fine-Tunings der Transformer-Schichten erlernt wurden – was erklärt, warum sie mit jüngeren multimodalen Ansätzen konkurrieren, die explizit textuelle Informationen nutzen. Zusammenfassend ergibt sich folgendes Bild: transformerbasierte Architekturen stellen den neuen State-of-the-Art in der SER dar, doch weitere Fortschritte sind erforderlich, um die verbleibenden Probleme hinsichtlich Robustheit und Individualität von Sprechern zu überwinden. Um die Reproduzierbarkeit unserer Ergebnisse zu gewährleisten, stellen wir das bestperformende Modell der Gemeinschaft zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp