Speech Emotion Recognition
Speech-Technologie bezieht sich auf die Fähigkeit von Computersystemen, menschliche Sprache zu verarbeiten, mit dem Ziel der Spracherkennung, -synthese und -verstehens. Ihr Ziel ist es, intelligente Systeme zu entwickeln, die effizient interagieren können und die Benutzererfahrung verbessern. Sie wird weit verbreitet in virtuellen Assistenten, Kundendienstsystemen, Sprachübersetzungen und anderen Bereichen eingesetzt, was die Natürlichkeit und Bequemlichkeit der Mensch-Maschine-Interaktion erheblich fördert.
CREMA-D
Vertically long patch ViT
Dusha Crowd
Dusha Podcast
Dusha baseline
EMODB
VGG-optiVMD
EmoDB Dataset
VQ-MAE-S-12 (Frame) + Query2Emo
IEMOCAP
SER with MTL
LSSED
PyResNet
MSP-IMPROV
emoDARTS
MSP-Podcast (Activation)
wav2small-Teacher
MSP-Podcast (Dominance)
wav2small-Teacher
MSP-Podcast (Valence)
Quechua-SER
LSTM
RAVDESS
xlsr-Wav2Vec2.0(FineTuning)
RESD
emotion2vec+base
ShEMO