11일 전

음성 데이터를 이용한 인간의 정서 분류를 위한 얕은 네트워크와 깊은 신경망의 비교적 실증 분석

{and Rajiv Misra, Rohit Kumar Gupta, Anurag Choubey, Sourajit Behera, Karanjit Singh Gill, Chandresh S. Kanani}
초록

인간의 감정은 말의 음성 특성 분석부터 말을 하기 전에 나타나는 얼굴 표정, 또는 말하지 않아도 다양한 감정을 암시할 수 있는 신체 자세에 이르기까지 다양한 방식으로 식별할 수 있다. 개인의 정확한 감정을 파악하면 상황을 이해하고 그에 적절히 반응하는 데 도움이 된다. 이 현상은 일상적인 인간과의 소통에 사용되는 피드백 시스템, 특히 스마트 홈 솔루션에 활용되는 시스템에서도 마찬가지로 적용된다. 자동 감정 인식 분야는 컴퓨터 비전, 생리학, 인공지능에 이르기까지 다양한 연구 분야에서의 활용 사례를 포함한다. 본 연구는 말의 발화 방식을 기반으로 감정을 중립, 기쁨, 슬픔, 분노, 평온, 두려움, 혐오, 놀람의 여덟 가지 범주로 분류하는 데 초점을 맞추었다. 이를 위해 “리저너(Audio-Visual Database of Emotional Speech and Song)” 데이터베이스(RAVDESS)를 활용하였다. 본 연구는 음성 신호를 기반으로 한 음성 대화의 감정 분류를 위한 새로운 접근법을 제안한다. 음성 신호의 음향적 특성을 활용한 감정 분류는 특정 언어에 종속되지 않으며, 다국어 감정 인식에 활용될 수 있다. 본 연구의 목적은 실시간 음성 신호에 대해 감정을 자동으로 인식할 수 있는 시스템을 개발하는 것이었다. 여러 시뮬레이션을 수행한 결과, 얕은 CNN 모델을 사용하여 최고 82.99%의 정확도를 달성하였다.

음성 데이터를 이용한 인간의 정서 분류를 위한 얕은 네트워크와 깊은 신경망의 비교적 실증 분석 | 최신 연구 논문 | HyperAI초신경