Emotionserkennung in der Sprache unter Verwendung von cross-modalen Transfermethoden im realen Umfeld

Die Erstellung großer, von Menschen annotierter Sprachdatensätze zur Ausbildung von Modellen für die Emotionserkennung ist eine bekannt schwierige Aufgabe, die durch die Kosten der Annotation und die Unklarheit der Labels erschwert wird. In dieser Arbeit untersuchen wir die Aufgabe des Lernens von Einbettungen (Embeddings) für die Sprachklassifizierung ohne Zugang zu irgendeiner Form von annotierten Audiodaten. Unser Ansatz basiert auf einer einfachen Hypothese: dass der emotionsreiche Inhalt der Sprechproduktion mit der Gesichtsmimik des Sprechers korreliert. Durch das Ausnutzen dieser Beziehung zeigen wir, dass Annotationen der Mimik vom visuellen Bereich (Gesichter) in den sprachlichen Bereich (Stimmen) übertragen werden können, indem man Kreuzmodaldistillation (Cross-modal distillation) anwendet. Wir leisten folgende Beiträge: (i) Wir entwickeln ein leistungsfähiges Lehrernetzwerk für die Erkennung von Gesichtsemotionen, das den aktuellen Stand der Technik auf einem Standardbenchmark erreicht; (ii) Wir verwenden das Lehrernetzwerk, um ein Schülersystem aus dem Stand heraus zu trainieren, um Repräsentationen (Einbettungen) für die Emotionserkennung in der Sprechproduktion zu lernen, ohne auf annotierte Audiodaten zugreifen zu müssen; und (iii) Wir zeigen, dass die Einbettungen für sprachliche Emotionen in externen Benchmark-Datensätzen zur Emotionserkennung in der Sprechproduktion eingesetzt werden können. Der Quellcode, die Modelle und die Daten sind verfügbar.