Ein hierarchisches Regressionskettengerüst für die Erkennung affektiver Vokalimpulse

Als gängige Form der Emotionssignierung durch nicht-sprachliche Vokalisierungen spielt der vocale Burst (VB) eine wichtige Rolle in täglichen sozialen Interaktionen. Das Verstehen und Modellieren menschlicher vokaler Bursts ist unerlässlich für die Entwicklung robuster und allgemeiner künstlicher Intelligenz. Die Erforschung computergestützter Ansätze zur Analyse von vokalen Bursts zieht zunehmend die Aufmerksamkeit der Forschung auf sich. In dieser Arbeit schlagen wir ein hierarchisches Framework vor, das auf sequentiellen Regressionsmodellen basiert, um affektive Erkennung aus VBs zu ermöglichen. Dabei werden explizit mehrere Beziehungen berücksichtigt: (i) zwischen emotionalen Zuständen und verschiedenen Kulturen; (ii) zwischen niedrigdimensionalen (Erregung & Valenz) und hochdimensionalen (10 Emotionsklassen) Emotionsräumen; sowie (iii) zwischen verschiedenen Emotionsklassen innerhalb des hochdimensionalen Raums. Um die Herausforderung der Datenknappheit zu bewältigen, verwenden wir auch selbstüberwachte Lernrepräsentationen (Self-Supervised Learning, SSL) mit schichtweisen und zeitlichen Aggregationsmodulen. Die vorgeschlagenen Systeme nahmen am ACII Affective Vocal Burst (A-VB) Challenge 2022 teil und belegten den ersten Platz in den Aufgaben "TWO" und "CULTURE". Experimentelle Ergebnisse basierend auf dem Datensatz des ACII Challenges 2022 zeigen die überlegene Leistungsfähigkeit des vorgeschlagenen Systems sowie die Effektivität der Berücksichtigung mehrerer Beziehungen durch hierarchische Regressionskettenmodelle.