2달 전
감정 인식을 위한 다목적 오디오-비주얼 학습
Lucas Goncalves; Seong-Gyun Leem; Wei-Cheng Lin; Berrak Sisman; Carlos Busso

초록
현재 대부분의 오디오-비주얼 감정 인식 모델은 실제 응용 프로그램에 배포하기 위한 유연성이 부족합니다. 우리는 하나의 모달리티만 사용 가능할 때도 작동하고, 감성 속성을 예측하거나 범주적 감성을 인식하는 작업을 상호 교체적으로 구현할 수 있는 다중모달 시스템을 구상합니다. 이러한 유연성을 다중모달 감정 인식 시스템에서 달성하는 것은 다양한 데이터 소스를 정확하게 해석하고 통합하는 고유한 어려움 때문입니다. 또한 회귀 또는 분류 작업 간의 직접적인 전환을 허용하면서 결측치나 부분 정보를 견고하게 처리하는 것도 도전적입니다. 본 연구에서는 감정 회귀 또는 감정 분류 작업을 위해 단일모달 및 다중모달 시스템을 처리하는 범용 오디오-비주얼 학습(VAVL) 프레임워크를 제안합니다. 우리는 일부 학습 세트에서 오디오와 비주얼 쌍 데이터가 이용되지 않는 경우에도(즉, 오디오만 또는 비디오만 존재하는 경우) 학습될 수 있는 오디오-비주얼 프레임워크를 구현하였습니다. 우리는 오디오-비주얼 공유 계층, 공유 계층 위의 잔차 연결, 그리고 단일모달 재구성 작업을 통해 이 효과적인 표현 학습을 달성하였습니다. 실험 결과, 우리의 아키텍처는 CREMA-D, MSP-IMPROV, CMU-MOSEI 말뭉치에서 강력한 기준선들을 크게 능가한다는 것을 보여줍니다. 특히 VAVL은 MSP-IMPROV 말뭉치에서 감성 속성 예측 작업에서 새로운 최신 성능(SOTA)을 달성하였습니다.