Speech Emotion Recognition
音声技術とは、コンピュータシステムが人間の音声を処理し、音声認識、合成、理解を実現する能力のことです。この技術の目的は、効率的な対話ができる知能システムを構築し、ユーザー体験を向上させることです。音声技術は、バーチャルアシスタント、カスタマーサービスシステム、音声翻訳など、さまざまな分野で広く応用されており、人間とコンピュータの自然で便利な相互作用を大幅に促進しています。
CREMA-D
Vertically long patch ViT
Dusha Crowd
Dusha Podcast
Dusha baseline
EMODB
VGG-optiVMD
EmoDB Dataset
VQ-MAE-S-12 (Frame) + Query2Emo
IEMOCAP
SER with MTL
LSSED
PyResNet
MSP-IMPROV
emoDARTS
MSP-Podcast (Activation)
wav2small-Teacher
MSP-Podcast (Dominance)
wav2small-Teacher
MSP-Podcast (Valence)
Quechua-SER
LSTM
RAVDESS
xlsr-Wav2Vec2.0(FineTuning)
RESD
emotion2vec+base
ShEMO