Command Palette

Search for a command to run...

4달 전

다중 작업 학습을 통한 음성 정서 인식

{Kenneth Liang Church Renjie Huang Jiahong Zheng Xingyu Yuan Cai}

초록

음성 감정 인식(Speech Emotion Recognition, SER)은 음성을 행복, 분노, 슬픔, 중립 등의 감정 범주로 분류하는 기술이다. 최근 들어 딥러닝 기법이 SER 작업에 적용되고 있다. 본 논문은 wav2vec-2.0 기반의 엔드투엔드 딥 신경망 모델을 활용하여 음성 인식과 감정 분류를 동시에 수행할 수 있는 다중 작업 학습(Multi-task Learning, MTL) 프레임워크를 제안한다. IEMOCAP 벤치마크에서 수행한 실험 결과, 제안하는 방법이 SER 작업에서 최신 기준(SOTA, State-of-the-art) 성능을 달성함을 확인하였다. 또한, 아블레이션 스터디를 통해 제안한 MTL 프레임워크의 효과성을 입증하였다.

벤치마크

벤치마크방법론지표
speech-emotion-recognition-on-iemocapSER with MTL
F1: -
UA CV: 0.7815

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
다중 작업 학습을 통한 음성 정서 인식 | 연구 논문 | HyperAI초신경