Speech Emotion Recognition
تقنية الكلام تشير إلى قدرة أنظمة الحاسوب على معالجة الكلام البشري، بهدف تحقيق التعرف على الكلام، وإنتاجه، وفهمه. الهدف منها هو بناء أنظمة ذكية يمكنها التفاعل بكفاءة، مما يعزز تجربة المستخدم. وهي تُستخدم على نطاق واسع في المساعدين الافتراضيين، وأنظمة خدمة العملاء، وترجمة الصوت، وغيرها من المجالات، مما يساهم بشكل كبير في تعزيز طبيعية وسهولة التفاعل بين الإنسان والحاسوب.
CREMA-D
Vertically long patch ViT
Dusha Crowd
Dusha Podcast
Dusha baseline
EMODB
VGG-optiVMD
EmoDB Dataset
VQ-MAE-S-12 (Frame) + Query2Emo
IEMOCAP
SER with MTL
LSSED
PyResNet
MSP-IMPROV
emoDARTS
MSP-Podcast (Activation)
wav2small-Teacher
MSP-Podcast (Dominance)
wav2small-Teacher
MSP-Podcast (Valence)
Quechua-SER
LSTM
RAVDESS
xlsr-Wav2Vec2.0(FineTuning)
RESD
emotion2vec+base
ShEMO