2달 전
CNN+LSTM 아키텍처를 이용한 데이터 증강을 통한 음성 감정 인식
Caroline Etienne; Guillaume Fidanza; Andrei Petrovskii; Laurence Devillers; Benoit Schmauch

초록
본 연구에서는 IEMOCAP 데이터셋을 사용하여 음성에서 감정을 인식하는 신경망을 설계하였습니다. 최신 오디오 분석 기술에 따라 원시 스펙트로그램에서 고차 특징을 추출하기 위한 합성곱 계층과 장기 의존성을 집계하기 위한 순환 계층을 포함한 구조를 사용하였습니다. 우리는 음성 트랙 길이 변동을 통한 데이터 증강, 계층별 최적화 조정, 순환 계층의 배치 정규화 등의 기법을 검토하고, 네 가지 감정에 대해 가중 정확도 64.5%, 비가중 정확도 61.7%라는 매우 경쟁력 있는 결과를 얻었습니다.