Command Palette

Search for a command to run...

4달 전

음성 데이터를 이용한 인간의 정서 분류를 위한 얕은 네트워크와 깊은 신경망의 비교적 실증 분석

{and Rajiv Misra Rohit Kumar Gupta Anurag Choubey Sourajit Behera Karanjit Singh Gill Chandresh S. Kanani}

초록

인간의 감정은 말의 음성 특성 분석부터 말을 하기 전에 나타나는 얼굴 표정, 또는 말하지 않아도 다양한 감정을 암시할 수 있는 신체 자세에 이르기까지 다양한 방식으로 식별할 수 있다. 개인의 정확한 감정을 파악하면 상황을 이해하고 그에 적절히 반응하는 데 도움이 된다. 이 현상은 일상적인 인간과의 소통에 사용되는 피드백 시스템, 특히 스마트 홈 솔루션에 활용되는 시스템에서도 마찬가지로 적용된다. 자동 감정 인식 분야는 컴퓨터 비전, 생리학, 인공지능에 이르기까지 다양한 연구 분야에서의 활용 사례를 포함한다. 본 연구는 말의 발화 방식을 기반으로 감정을 중립, 기쁨, 슬픔, 분노, 평온, 두려움, 혐오, 놀람의 여덟 가지 범주로 분류하는 데 초점을 맞추었다. 이를 위해 “리저너(Audio-Visual Database of Emotional Speech and Song)” 데이터베이스(RAVDESS)를 활용하였다. 본 연구는 음성 신호를 기반으로 한 음성 대화의 감정 분류를 위한 새로운 접근법을 제안한다. 음성 신호의 음향적 특성을 활용한 감정 분류는 특정 언어에 종속되지 않으며, 다국어 감정 인식에 활용될 수 있다. 본 연구의 목적은 실시간 음성 신호에 대해 감정을 자동으로 인식할 수 있는 시스템을 개발하는 것이었다. 여러 시뮬레이션을 수행한 결과, 얕은 CNN 모델을 사용하여 최고 82.99%의 정확도를 달성하였다.

벤치마크

벤치마크방법론지표
speech-emotion-recognition-on-ravdessCNN-X (Shallow CNN)
Accuracy: 82.99%
F1 Score: 0.82
Precision: 0.82
Recall: 0.82

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp