HyperAIHyperAI
vor 18 Tagen

kontextabhängiges domainspezifisches neuronales Netzwerk für die multimodale Emotionserkennung

{Rongjun Li, Zhanlei Yang, Jian Huang, Bin Liu, JianHua Tao, Zheng Lian}
Abstract

Die Erkennung von Emotionen bleibt aufgrund von Sprecherunterschieden und geringen Ressourcen an Trainingsbeispielen eine komplexe Aufgabe. Um diesen Herausforderungen zu begegnen, konzentrieren wir uns auf domain-adversarielle neuronale Netzwerke (DANN) für die Emotionserkennung. Die primäre Aufgabe besteht darin, Emotionsetiketten vorherzusagen, während die sekundäre Aufgabe darin besteht, eine gemeinsame Darstellung zu lernen, in der Sprecheridentitäten nicht mehr unterscheidbar sind. Durch diesen Ansatz bringen wir die Darstellungen verschiedener Sprecher näher zusammen. Gleichzeitig verringert die Nutzung von unbeschrifteten Daten im Trainingsprozess die Auswirkung von geringen Trainingsressourcen. Inzwischen zeigten vorherige Arbeiten, dass kontextuelle Informationen und multimodale Merkmale für die Emotionserkennung von entscheidender Bedeutung sind. Allerdings ignorieren bisherige DANN-basierte Ansätze diese Informationen, was ihre Leistungsfähigkeit einschränkt. In diesem Artikel stellen wir ein kontextabhängiges domain-adversariales neuronales Netzwerk für die multimodale Emotionserkennung vor. Um die Wirksamkeit unseres vorgeschlagenen Ansatzes zu überprüfen, führen wir Experimente auf dem Benchmark-Datensatz IEMOCAP durch. Die experimentellen Ergebnisse zeigen, dass die vorgeschlagene Methode gegenüber aktuellen State-of-the-Art-Strategien eine absolute Verbesserung von 3,48 % erzielt.