HyperAIHyperAI

Command Palette

Search for a command to run...

Ein vektorquantisierter maskierter Autoencoder für die Sprachemotionserkennung

Samir Sadok Simon Leglaive Renaud Séguier

Zusammenfassung

In den letzten Jahren hat die Spracherkennung von Emotionen (Speech Emotion Recognition, SER) dank Fortschritten in der tiefen Lernverfahren erhebliche Fortschritte gemacht. Dennoch stellt die begrenzte Verfügbarkeit annotierter Daten weiterhin eine bedeutende Herausforderung in diesem Bereich dar. Selbstüberwachtes Lernen ist kürzlich zu einer vielversprechenden Lösung für dieses Problem hervorgetreten. In diesem Artikel stellen wir den Vector Quantized Masked Autoencoder for Speech (VQ-MAE-S) vor, ein selbstüberwachtes Modell, das zur Erkennung von Emotionen in Sprachsignalen durch Feinabstimmung optimiert wurde. Das VQ-MAE-S-Modell basiert auf einem Masked Autoencoder (MAE), der im diskreten Latentraum eines vector-quantized variational autoencoder (VQ-VAE) arbeitet. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene VQ-MAE-S-Modell, das zunächst auf dem VoxCeleb2-Datensatz vortrainiert und anschließend auf emotionalen Sprachdaten feinabgestimmt wurde, sowohl ein auf der rohen Spektrogrammdarstellung basierendes MAE-Modell als auch andere state-of-the-art-Verfahren in der SER übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein vektorquantisierter maskierter Autoencoder für die Sprachemotionserkennung | Paper | HyperAI