HyperAIHyperAI

Command Palette

Search for a command to run...

Evaluation von Varianten von wav2vec 2.0 auf Aufgaben mit affektiven Stimmausbrüchen

Akira Sasou Bagus Tris Atmaja

Zusammenfassung

Die Suche nach emotionalen Biomarkern im menschlichen Stimme ist ein anspruchsvolles Forschungsfeld. Bisherige Studien konzentrierten sich auf die Vorhersage affektiver Zustände aus Sprache; diese Studie untersucht verschiedene Aufgaben im Bereich affektiver Stimmausbrüche. Ausgehend vom Erfolg selbstüberwachter Lernverfahren in der automatischen Spracherkennung extrahierten wir akustische Embeddings mithilfe von Varianten von wav2vec 2.0 für vier Aufgaben im Bereich affektiver Stimmausbrüche: High, Two, Culture und Type. Unter Verwendung einer ähnlichen Architektur für alle Aufgaben zeigt die Bewertung der akustischen Embeddings das Potenzial von wav2vec 2.0-Varianten gegenüber herkömmlichen akustischen Merkmalen bei Aufgaben mit affektiven Stimmausbrüchen. Wir bewerteten sowohl herkömmliche akustische Merkmale als auch diese akustischen Embeddings bei einer Evaluierung mit zwanzig verschiedenen Zufallssämlingen und gaben die maximalen und durchschnittlichen Scores sowie deren Standardabweichungen im Validierungsset an. Drei hohe Scores aus diesen Validierungen für alle Aufgaben unterstützten die Generierung von Vorhersagen für die Testmenge. Die Testergebnisse wurden mit jenen früherer Studien verglichen und ergaben beachtliche Verbesserungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp