HyperAIHyperAI
vor 11 Tagen

Ein vektorquantisierter maskierter Autoencoder für die Sprachemotionserkennung

Samir Sadok, Simon Leglaive, Renaud Séguier
Ein vektorquantisierter maskierter Autoencoder für die Sprachemotionserkennung
Abstract

In den letzten Jahren hat die Spracherkennung von Emotionen (Speech Emotion Recognition, SER) dank Fortschritten in der tiefen Lernverfahren erhebliche Fortschritte gemacht. Dennoch stellt die begrenzte Verfügbarkeit annotierter Daten weiterhin eine bedeutende Herausforderung in diesem Bereich dar. Selbstüberwachtes Lernen ist kürzlich zu einer vielversprechenden Lösung für dieses Problem hervorgetreten. In diesem Artikel stellen wir den Vector Quantized Masked Autoencoder for Speech (VQ-MAE-S) vor, ein selbstüberwachtes Modell, das zur Erkennung von Emotionen in Sprachsignalen durch Feinabstimmung optimiert wurde. Das VQ-MAE-S-Modell basiert auf einem Masked Autoencoder (MAE), der im diskreten Latentraum eines vector-quantized variational autoencoder (VQ-VAE) arbeitet. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene VQ-MAE-S-Modell, das zunächst auf dem VoxCeleb2-Datensatz vortrainiert und anschließend auf emotionalen Sprachdaten feinabgestimmt wurde, sowohl ein auf der rohen Spektrogrammdarstellung basierendes MAE-Modell als auch andere state-of-the-art-Verfahren in der SER übertrifft.

Ein vektorquantisierter maskierter Autoencoder für die Sprachemotionserkennung | Neueste Forschungsarbeiten | HyperAI