Jenseits stummer Buchstaben: Verstärkung von LLMs in der Emotionserkennung durch stimmliche Feinheiten

Die Emotionserkennung in der Sprache ist eine anspruchsvolle multimodale Aufgabe, die sowohl den verbleibenden Inhalt als auch die Nuancen der Stimme verstehen muss. In dieser Arbeit stellen wir einen neuen Ansatz zur Emotionsdetektion vor, der auf großen Sprachmodellen (LLMs) basiert, die außergewöhnliche Fähigkeiten im Bereich des natürlichen Sprachverstehens gezeigt haben. Um die inhärente Beschränkung von LLMs bei der Verarbeitung von Audioeingaben zu überwinden, schlagen wir SpeechCueLLM vor, eine Methode, die sprachliche Merkmale in natürlichsprachliche Beschreibungen übersetzt und es LLMs ermöglicht, multimodale Emotionsanalysen durch Textanweisungen ohne architektonische Änderungen durchzuführen. Unsere Methode ist minimalistisch, aber dennoch sehr effektiv und übertrifft Basismodelle, die strukturelle Modifikationen erfordern. Wir evaluieren SpeechCueLLM anhand zweier Datensätze: IEMOCAP und MELD und zeigen signifikante Verbesserungen in der Genauigkeit der Emotionserkennung, insbesondere für hochwertige Audiodaten. Darüber hinaus untersuchen wir die Effektivität verschiedener Merkmalsrepräsentationen und Feinabstimmungsstrategien für unterschiedliche LLMs. Unsere Experimente belegen, dass das Einbeziehen von Sprechbeschreibungen den durchschnittlichen gewichteten F1-Score auf IEMOCAP um mehr als 2% erhöht (von 70,111% auf 72,596%).