Mehrfach-Emotionsanalyse in Gesprächen mittels multimodaler Wissensweitergabe

Die Bewertung von Sprecheremotionen in Gesprächen ist entscheidend für zahlreiche Anwendungen, die eine Mensch-Computer-Interaktion erfordern. Allerdings können sich mehrere emotionale Zustände gleichzeitig (z. B. „Zorn“ und „Frustration“) überlappen oder sich gegenseitig beeinflussen, und ihre dynamische Entwicklung variiert erheblich aufgrund interner (z. B. individueller soziokultureller, bildungsbasierter und demografischer Hintergründe) und externer Kontextfaktoren. Bisher lag der Fokus auf der Bewertung lediglich der dominanten Emotion, die zu einem bestimmten Zeitpunkt beim Sprecher beobachtet wurde – eine Herangehensweise, die bei der Klassifikation schwieriger Mehrfachlabels während des Testens zu irreführenden Entscheidungen führen kann. In dieser Arbeit präsentieren wir ein selbstüberwachtes Mehrlabel-Verfahren mit peer-kooperativer Distillation (Self-supervised Multi-Label Peer Collaborative Distillation, SeMuL-PCD), basierend auf einem effizienten Multimodal-Transformer-Netzwerk. Dabei werden komplementäre Rückmeldungen aus mehreren modenspezifischen Peer-Netzwerken (z. B. Transkript, Audio, Visuelle Daten) in ein einziges moden-ensembliertes Fusionsnetzwerk integriert, um gleichzeitig mehrere Emotionen zu schätzen. Die vorgeschlagene Multimodale Distillationsverlustfunktion kalibriert das Fusionsnetzwerk, indem die Kullback-Leibler-Divergenz gegenüber den Peer-Netzwerken minimiert wird. Zudem wird jedes Peer-Netzwerk mittels eines selbstüberwachten kontrastiven Ziels optimiert, um die Generalisierbarkeit über diverse soziodemografische Hintergründe von Sprechern zu verbessern. Durch die Förderung eines kooperativen Lernens zwischen den Peer-Netzwerken, bei dem jedes Netzwerk unabhängig diskriminative Muster seiner jeweiligen Modality erlernt, erweist sich SeMuL-PCD als wirksam in unterschiedlichen Gesprächsszenarien. Insbesondere übertrifft das Modell die derzeitigen State-of-the-Art-Modelle auf mehreren großen öffentlichen Datensätzen (z. B. MOSEI, EmoReact und ElderReact) und erreicht in Kreuz-Datensatz-Experimenten eine um etwa 17 % verbesserte gewichtete F1-Score. Zudem zeigt das Modell eine beeindruckende Generalisierungsfähigkeit über alters- und demografisch vielfältige Bevölkerungsgruppen hinweg.