17일 전

최근의 딥러닝 기술 발전을 활용한 음성-시각 감정 인식

Liam Schoneveld, Alice Othmani, Hazem Abdelkawy
최근의 딥러닝 기술 발전을 활용한 음성-시각 감정 인식
초록

정서 표현은 타인에게 우리의 정서 상태 또는 태도를 전달하는 행동을 의미하며, 언어적 및 비언어적 소통을 통해 이루어진다. 복잡한 인간 행동은 주로 얼굴, 음성, 신체 제스처 등의 다양한 모달리티에서 추출한 신체적 특징을 분석함으로써 이해할 수 있다. 최근에는 인간 행동 분석을 위한 자연스러운 다중 모달 정서 인식이 광범위하게 연구되고 있다. 본 논문에서는 음성-시각 정서 인식을 위한 새로운 딥러닝 기반 접근법을 제안한다. 제안하는 방법은 지식 증류(Knowledge Distillation) 및 고성능 딥 아키텍처와 같은 최신 딥러닝 기술을 활용한다. 음성 및 시각 모달리티의 딥 특징 표현은 모델 수준의 융합 전략을 기반으로 통합되며, 이후 순환 신경망(RNN)을 사용하여 시간적 동적 특성을 포착한다. 제안하는 방법은 RECOLA 데이터셋에서 정서의 강도(Valence) 예측에서 기존 최고 성능 기법들을 크게 능가한다. 또한, 제안하는 시각적 얼굴 표현 특징 추출 네트워크는 AffectNet 및 Google Facial Expression Comparison 데이터셋에서 기존 최고 성능 결과보다 우수한 성능을 보였다.

최근의 딥러닝 기술 발전을 활용한 음성-시각 감정 인식 | 최신 연구 논문 | HyperAI초신경