2달 전

오디오-비디오 감정 인식을 위한 감정 특성과 융합 전략 탐구

Hengshun Zhou; Debin Meng; Yuanyuan Zhang; Xiaojiang Peng; Jun Du; Kai Wang; Yu Qiao
오디오-비디오 감정 인식을 위한 감정 특성과 융합 전략 탐구
초록

오디오-비디오 기반 감정 인식은 주어진 비디오를 기본적인 감정으로 분류하는 것을 목표로 합니다. 본 논문에서는 2019년 EmotiW에서 주로 오디오와 시각적 모드의 감정 특성과 특성 융합 전략을 탐구한 접근 방식을 설명합니다. 감정 특성에 대해서는 음성 스펙트로그램과 로그 멜-스펙트로그램(Log Mel-spectrogram)을 사용한 오디오 특성을 탐구하고, 다양한 CNN 모델과 다른 감정 사전 학습 전략을 통해 여러 얼굴 특성을 평가합니다. 융합 전략에 대해서는 모달 내(intra-modal) 및 모달 간(cross-modal) 융합 방법을 탐구하며, 중요한 감정 특성을 강조하기 위해 주의 메커니즘(attention mechanisms) 설계, 그리고 모달 간 특성 융합을 위한 특성 연결(feature concatenation)과 인수화된 이중 선형 풀링(FBP: Factorized Bilinear Pooling) 등을 검토합니다. 신중한 평가를 거쳐 AFEW 검증 세트에서 65.5%, 테스트 세트에서 62.48%의 성능을 달성하였으며, 챌린지에서 3위를 차지하였습니다.