emotion2vec: Selbstüberwachtes Vor-Training für Sprachemotionendarstellung

Wir stellen emotion2vec vor, ein universelles Modell zur Darstellung von Sprachemotionen. emotion2vec wird auf offen zugänglichen, nicht annotierten Emotionsdaten durch selbstüberwachte Online-Distillation vortrainiert und kombiniert während des Vortrainings sowohl utteranzniveaubasierte als auch framebasierte Verlustfunktionen. emotion2vec übertrifft sowohl state-of-the-art vortrainierte universelle Modelle als auch spezialisierte Emotionsmodelle, indem lediglich lineare Schichten für die Aufgabe der Sprachemotionserkennung auf dem etablierten IEMOCAP-Datensatz trainiert werden. Zudem zeigt emotion2vec konsistente Verbesserungen bei 10 verschiedenen Sprachen in Sprachemotionserkennungsdatensätzen. Darüber hinaus erzielt emotion2vec hervorragende Ergebnisse bei weiteren Emotionstasks, wie beispielsweise der Emotionserkennung in Musik, der Emotionsschätzung in Gesprächen und der Sentimentanalyse. Vergleichs- sowie Ablationsstudien sowie Visualisierungen demonstrieren umfassend die universelle Leistungsfähigkeit des vorgeschlagenen emotion2vec. Sofern uns bekannt, stellt emotion2vec das erste universelle Repräsentationsmodell für vielfältige emotionsbezogene Aufgaben dar und schließt damit eine Lücke im Forschungsfeld.