Mehrmodalige Emotionserkennung am IEMOCAP-Datensatz mit tiefen neuronalen Netzen

Die Erkennung von Emotionen ist in der Forschung zu Mensch-Computer-Interaktionen (Human Computer Interactions) zu einem wichtigen Bereich geworden, insbesondere im Hinblick auf die Verbesserung der Techniken zur Modellierung verschiedener Aspekte des Verhaltens. Mit dem technologischen Fortschritt erweitert sich unser Verständnis von Emotionen, und es besteht ein wachsender Bedarf an automatischen Emotionserkennungssystemen. Eine der Richtungen, in die sich die Forschung bewegt, ist die Nutzung von Neuronalen Netzen (Neural Networks), die darin geübt sind, komplexe Funktionen abzuschätzen, die von einer großen Anzahl und vielfältigen Quellen von Eingabedaten abhängen. In dieser Arbeit versuchen wir, diese Effektivität von Neuronalen Netzen auszunutzen, um eine multimodale Emotionserkennung am IEMOCAP-Datensatz durchzuführen, indem wir Daten aus Sprache, Text und Bewegungsverfolgung (Motion Capture) von Gesichtsausdrücken, Rotation und Handbewegungen verwenden. Frühere Studien haben sich auf die Erkennung von Emotionen aus der Sprache am IEMOCAP-Datensatz konzentriert, aber unser Ansatz ist der erste, der die verschiedenen Datentypen nutzt, die der IEMOCAP-Datensatz bietet, um eine robuster und genaue Emotionsdetektion zu ermöglichen.