Speech Emotion Recognition
La technologie de la parole concerne la capacité des systèmes informatiques à traiter le langage humain, visant à réaliser la reconnaissance vocale, la synthèse et la compréhension de la parole. Son objectif est de créer des systèmes intelligents capables d'interagir efficacement, améliorant ainsi l'expérience utilisateur. Elle est largement utilisée dans les assistants virtuels, les systèmes de service client, la traduction vocale et d'autres domaines, contribuant considérablement à la naturalité et à la facilité de l'interaction homme-machine.
CREMA-D
Vertically long patch ViT
Dusha Crowd
Dusha Podcast
Dusha baseline
EMODB
VGG-optiVMD
EmoDB Dataset
VQ-MAE-S-12 (Frame) + Query2Emo
IEMOCAP
SER with MTL
LSSED
PyResNet
MSP-IMPROV
emoDARTS
MSP-Podcast (Activation)
wav2small-Teacher
MSP-Podcast (Dominance)
wav2small-Teacher
MSP-Podcast (Valence)
Quechua-SER
LSTM
RAVDESS
xlsr-Wav2Vec2.0(FineTuning)
RESD
emotion2vec+base
ShEMO