Tiefen versus flache neuronale Netze: Eine empirische Analyse zur menschlichen Emotionsklassifikation unter Verwendung audiovisueller Daten
Menschliche Emotionen können auf vielfältige Weise erkannt werden, beispielsweise durch die Analyse der tonalen Eigenschaften der Sprache, der Gesichtsausdrücke, die vor der Sprachproduktion entstehen, oder auch der Körpersprache, die Emotionen andeuten kann, ohne dass Worte gesprochen werden müssen. Die korrekte Identifizierung der Emotionen einer Person kann dabei helfen, die Situation besser zu verstehen und gegebenenfalls angemessen darauf zu reagieren. Dieses Phänomen gilt insbesondere für zahlreiche Rückmeldungssysteme im täglichen menschlichen Kommunikationskontext, insbesondere solche, die in intelligenten Haussystemen eingesetzt werden. Der Bereich der automatisierten Emotionserkennung umfasst Anwendungsfälle in verschiedenen Forschungsfeldern, von der Computer Vision und der Physiologie bis hin zur künstlichen Intelligenz. In dieser Arbeit wird eine Klassifizierung von Emotionen in acht Kategorien vorgenommen – neutral, glücklich, traurig, wütend, ruhig, ängstlich, abgestoßen und überrascht – basierend auf der Art und Weise, wie Sätze gesprochen werden, unter Verwendung der „Ryerson Audio-Visual Database of Emotional Speech and Song“ (RAVDESS). Wir stellen einen neuartigen Ansatz zur Emotionsklassifizierung von Audio-Kommunikationen auf der Grundlage von Sprachsignalen vor. Die auf akustischen Eigenschaften basierende Emotionsklassifizierung ist sprachunabhängig und eignet sich somit für die cross-languages Emotionserkennung. Ziel der Arbeit war die Entwicklung eines Systems, das Emotionen in Echtzeit automatisch erkennen kann. Durch mehrere Simulationen konnten wir mit unserem flachen CNN-Modell eine höchste Genauigkeit von 82,99 % erreichen.