18일 전

악성 다중모달 도메인 전이를 통한 비디오 수준 감정 분석

{Wang Yanan; Wu Jianming; Furumai Kazuaki; Wada Shinya; Kurihara Satoshi}
초록

비디오 수준의 감성 분석은 다양한 모달 간의 감성 차이를 포착할 수 있는 구분 가능한 다모달 표현을 추출해야 하는 도전적인 과제이다. 그러나 다양한 모달 간의 분포가 상이하고, 통합된 다모달 레이블이 단일 모달 학습에 항상 적합하지 않기 때문에, 단일 모달 표현 간의 거리 차이가 증가하게 되며, 이는 구분 가능한 다모달 표현을 학습하는 것을 방해한다. 본 논문에서는 시스템의 성능을 더욱 향상시키기 위해 더 구분 가능한 다모달 표현을 얻기 위해, 변분 오토인코더(VAE) 기반의 적대적 다모달 도메인 전이(VAE-AMDT)를 제안하고, 이를 다중 주의(multi-attention) 모듈과 함께 공동 학습하여 단일 모달 표현 간의 거리 차이를 줄인다. 먼저, 변분 오토인코더(VAE)를 적용하여 시각적, 언어적, 음성적 표현이 공통된 분포를 따르도록 하며, 이후 적대적 학습을 도입하여 모든 단일 모달 표현을 통합된 임베딩 공간으로 전이한다. 그 결과, 다중 주의 모듈을 통해 이 통합된 임베딩 공간에서 다양한 모달을 융합하게 되며, 이 모듈은 시간과 모달에 걸쳐 중요한 감성 표현을 강조하기 위해 자기 주의(self-attention), 교차 주의(cross-attention), 삼중 주의(triple-attention)를 포함한다. 제안한 방법은 MOSI 데이터셋에서 기존 최고 성능 기준보다 F1 점수를 3.6% 향상시키고, MOSEI 데이터셋에서는 2.9% 향상시켜, 비디오 수준의 감성 분석을 위한 구분 가능한 다모달 표현을 획득하는 데 있어 그 유효성을 입증하였다.