HyperAIHyperAI

Command Palette

Search for a command to run...

Mehrfach-Emotionsanalyse in Gesprächen mittels multimodaler Wissensweitergabe

Junsong Yuan Sreyasee Das Bhattacharjee Naresh Kumar Devulapally Sidharth Anand

Zusammenfassung

Die Bewertung von Sprecheremotionen in Gesprächen ist entscheidend für zahlreiche Anwendungen, die eine Mensch-Computer-Interaktion erfordern. Allerdings können sich mehrere emotionale Zustände gleichzeitig (z. B. „Zorn“ und „Frustration“) überlappen oder sich gegenseitig beeinflussen, und ihre dynamische Entwicklung variiert erheblich aufgrund interner (z. B. individueller soziokultureller, bildungsbasierter und demografischer Hintergründe) und externer Kontextfaktoren. Bisher lag der Fokus auf der Bewertung lediglich der dominanten Emotion, die zu einem bestimmten Zeitpunkt beim Sprecher beobachtet wurde – eine Herangehensweise, die bei der Klassifikation schwieriger Mehrfachlabels während des Testens zu irreführenden Entscheidungen führen kann. In dieser Arbeit präsentieren wir ein selbstüberwachtes Mehrlabel-Verfahren mit peer-kooperativer Distillation (Self-supervised Multi-Label Peer Collaborative Distillation, SeMuL-PCD), basierend auf einem effizienten Multimodal-Transformer-Netzwerk. Dabei werden komplementäre Rückmeldungen aus mehreren modenspezifischen Peer-Netzwerken (z. B. Transkript, Audio, Visuelle Daten) in ein einziges moden-ensembliertes Fusionsnetzwerk integriert, um gleichzeitig mehrere Emotionen zu schätzen. Die vorgeschlagene Multimodale Distillationsverlustfunktion kalibriert das Fusionsnetzwerk, indem die Kullback-Leibler-Divergenz gegenüber den Peer-Netzwerken minimiert wird. Zudem wird jedes Peer-Netzwerk mittels eines selbstüberwachten kontrastiven Ziels optimiert, um die Generalisierbarkeit über diverse soziodemografische Hintergründe von Sprechern zu verbessern. Durch die Förderung eines kooperativen Lernens zwischen den Peer-Netzwerken, bei dem jedes Netzwerk unabhängig diskriminative Muster seiner jeweiligen Modality erlernt, erweist sich SeMuL-PCD als wirksam in unterschiedlichen Gesprächsszenarien. Insbesondere übertrifft das Modell die derzeitigen State-of-the-Art-Modelle auf mehreren großen öffentlichen Datensätzen (z. B. MOSEI, EmoReact und ElderReact) und erreicht in Kreuz-Datensatz-Experimenten eine um etwa 17 % verbesserte gewichtete F1-Score. Zudem zeigt das Modell eine beeindruckende Generalisierungsfähigkeit über alters- und demografisch vielfältige Bevölkerungsgruppen hinweg.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp