Sprechernormalisierung für selbstüberwachtes Sprachemotionserkennung

Große Datensätze für die Sprachemotionserkennung sind schwer zu beschaffen, und kleine Datensätze können Verzerrungen enthalten. Deep-Net-basierte Klassifikatoren neigen hingegen dazu, solche Verzerrungen auszunutzen und Abkürzungen wie sprecherbezogene Merkmale zu finden, was die Fähigkeit eines Modells zur Generalisierung typischerweise beeinträchtigt. Um dieser Herausforderung zu begegnen, schlagen wir einen gradientenbasierten adversarialen Lernansatz vor, der die Aufgabe der Sprachemotionserkennung erlernt, während gleichzeitig sprecherbezogene Merkmale aus der Merkmalsrepräsentation normalisiert werden. Wir belegen die Wirksamkeit unseres Ansatzes sowohl in sprecherunabhängigen als auch in sprecherabhängigen Szenarien und erzielen neue SOTA-Ergebnisse auf dem anspruchsvollen IEMOCAP-Datensatz.