11일 전

다양한 아키텍처 탐색을 통한 음성 감정 인식 향상

Thejan Rajapakshe, Rajib Rana, Sara Khalifa, Berrak Sisman, Björn Schuller
다양한 아키텍처 탐색을 통한 음성 감정 인식 향상
초록

음성 감정 인식(Speech Emotion Recognition, SER)은 인간-컴퓨터 상호작용에서 감정 인식 기반의 의사소통을 가능하게 하는 핵심 기술이다. 최근 딥러닝(Deep Learning, DL) 기술의 발전으로 모델의 복잡성이 증가하면서 SER 모델의 성능이 크게 향상되었다. 그러나 최적의 DL 아키텍처를 설계하기 위해서는 사전 경험과 실험적 평가가 필요하다. 이에 희망적인 방향으로 신경망 아키텍처 탐색(Neural Architecture Search, NAS)이 자동으로 최적의 DL 모델을 탐색할 수 있는 가능성을 제시하고 있다. 특히, 미분 가능 아키텍처 탐색(Differentiable Architecture Search, DARTS)은 NAS를 효율적으로 활용하여 최적화된 모델을 탐색하는 방법으로 주목받고 있다. 본 논문에서는 기존 문헌에서 제안된 CNN과 LSTM의 결합 방식을 기반으로, DARTS를 활용하여 최적화된 병렬 CNN-LSTM 아키텍처를 제안함으로써 SER 성능을 향상시키고자 한다. 기존의 DARTS 연구에서는 CNN과 LSTM의 조합에 적용된 바 있으나, 본 연구는 DARTS를 이용한 CNN 연산 선택에 새로운 메커니즘을 도입하였다. 이전 연구들과 달리, DARTS 셀 내부의 CNN 레이어 순서에 대해 제약을 두지 않고, 대신 DARTS가 레이어 순서를 자동으로 최적화하도록 허용함으로써 더 유연하고 효과적인 아키텍처 탐색을 실현하였다. IEMOCAP 및 MSP-IMPROV 데이터셋을 대상으로 한 실험을 통해, 제안하는 방법이 수작업으로 설계된 CNN-LSTM 구성보다 유의미하게 높은 SER 정확도를 달성함을 입증하였으며, 기존 DARTS를 사용하여 도출된 최고 성능의 CNN-LSTM 모델보다도 우수한 성능을 보였다.

다양한 아키텍처 탐색을 통한 음성 감정 인식 향상 | 최신 연구 논문 | HyperAI초신경