11일 전

RAVDESS 데이터셋을 이용한 전이 학습을 통한 다중모달 정서 인식

{Fernando Fernández-Martínez, Juan M. Montero, Ricardo Kleinlein, Zoraida Callejas, David Griol, Cristina Luna-Jiménez}
초록

감정 인식은 의료 분야나 도로 안전 시스템 등 다양한 응용 분야에서의 가능성을 지녀 연구계의 주목을 받고 있다. 본 논문에서는 음성과 얼굴 정보를 기반으로 하는 다모달 감정 인식 시스템을 제안한다. 음성 기반 모달리티에 대해, 전이 학습 기법 중 임베딩 추출과 파인튜닝(Fine-Tuning)을 평가하였다. PANNs 프레임워크의 CNN-14를 파인튜닝한 경우 가장 높은 정확도를 달성하였으며, 이는 초기에 무작위 가중치로부터 학습을 시작하는 대신 유사한 작업에서 미리 학습된 모델을 활용할 경우 학습이 더 안정적임을 확인시켜 주었다. 얼굴 감정 인식 모듈에 대해서는, 선수학습된 시공간 변환 네트워크(Spatial Transformer Network)를 촉각 지도(saliency maps) 및 얼굴 이미지에 적용한 후, 어텐션 메커니즘을 갖춘 양방향 LSTM(bi-LSTM)을 연결하는 프레임워크를 제안한다. 오류 분석 결과, 도메인 적응을 수행한 후에도 프레임 기반 시스템이 비디오 기반 작업에 직접 적용될 경우 일부 문제를 겪을 수 있음을 밝혀냈으며, 이는 이러한 사전 학습된 모델의 내재된 지식을 효과적으로 활용하기 위해 새로운 보정 전략을 탐색할 수 있는 새로운 연구 방향을 제시한다. 마지막으로, 두 모달리티를 지연 융합(late fusion) 전략으로 결합한 결과, 주체별 5겹 교차 검증(5-CV) 평가에서 RAVDESS 데이터셋에서 8개 감정을 분류하는 데 있어 80.08%의 정확도를 달성하였다. 실험 결과는 각 모달리티가 사용자 감정 상태 탐지에 중요한 정보를 포함하고 있으며, 두 모달리티의 결합이 시스템 성능 향상에 기여함을 입증하였다.

RAVDESS 데이터셋을 이용한 전이 학습을 통한 다중모달 정서 인식 | 최신 연구 논문 | HyperAI초신경