HyperAIHyperAI
vor 11 Tagen

Evaluation von Varianten von wav2vec 2.0 auf Aufgaben mit affektiven Stimmausbrüchen

{Akira Sasou, Bagus Tris Atmaja}
Abstract

Die Suche nach emotionalen Biomarkern im menschlichen Stimme ist ein anspruchsvolles Forschungsfeld. Bisherige Studien konzentrierten sich auf die Vorhersage affektiver Zustände aus Sprache; diese Studie untersucht verschiedene Aufgaben im Bereich affektiver Stimmausbrüche. Ausgehend vom Erfolg selbstüberwachter Lernverfahren in der automatischen Spracherkennung extrahierten wir akustische Embeddings mithilfe von Varianten von wav2vec 2.0 für vier Aufgaben im Bereich affektiver Stimmausbrüche: High, Two, Culture und Type. Unter Verwendung einer ähnlichen Architektur für alle Aufgaben zeigt die Bewertung der akustischen Embeddings das Potenzial von wav2vec 2.0-Varianten gegenüber herkömmlichen akustischen Merkmalen bei Aufgaben mit affektiven Stimmausbrüchen. Wir bewerteten sowohl herkömmliche akustische Merkmale als auch diese akustischen Embeddings bei einer Evaluierung mit zwanzig verschiedenen Zufallssämlingen und gaben die maximalen und durchschnittlichen Scores sowie deren Standardabweichungen im Validierungsset an. Drei hohe Scores aus diesen Validierungen für alle Aufgaben unterstützten die Generierung von Vorhersagen für die Testmenge. Die Testergebnisse wurden mit jenen früherer Studien verglichen und ergaben beachtliche Verbesserungen.

Evaluation von Varianten von wav2vec 2.0 auf Aufgaben mit affektiven Stimmausbrüchen | Neueste Forschungsarbeiten | HyperAI