11일 전

음성 감정 인식을 위한 음성 특징과 워드 임베딩 기법

{and Masato Akagi, Kiyoaki Shirai, Bagus Tris Atmaja}
초록

정서 인식은 다양한 모달리티에서 자동으로 수행될 수 있다. 본 논문은 음성 특징과 워드 임베딩을 활용한 범주형 음성 기반 정서 인식을 제안한다. 텍스트 특징은 음성 특징과 결합하여 정서 인식 정확도를 향상시킬 수 있으며, 두 가지 특징 모두 음성에서 추출할 수 있다. 본 연구에서는 발화 내의 침묵을 제거한 음성 세그먼트를 사용하며, 음성 기반 정서 인식을 위해 음향 특징을 추출한다. 워드 임베딩은 텍스트 기반 정서 인식의 입력 특징으로 사용되며, 성능 향상을 위해 두 특징을 결합하는 방법을 제안한다. 텍스트 처리에는 양방향 LSTM 레이어 2개를 사용하고, 음향 특징에 대한 정서 인식에는 완전 연결(fully connected) 레이어를 적용한다. 이후 두 네트워크는 조기 융합(early fusion) 방식으로 완전 연결 네트워크를 통해 병합되어 총 4개의 정서 카테고리 중 하나를 예측한다. 실험 결과, 음성과 텍스트 특징을 결합한 경우 정확도가 75.49%로 나타났으며, 음성 특징만 사용했을 때의 58.29% 또는 텍스트 특징만 사용했을 때의 68.01%보다 높은 성능을 보였다. 이 결과는 동일한 데이터셋과 동일한 모달리티를 사용한 이전의 다른 연구들보다도 우수한 성능을 달성하였다.

음성 감정 인식을 위한 음성 특징과 워드 임베딩 기법 | 최신 연구 논문 | HyperAI초신경