11일 전

부분 데이터를 갖는 음성시각 정서 인식을 위한 자기주의 융합

Kateryna Chumachenko, Alexandros Iosifidis, Moncef Gabbouj
부분 데이터를 갖는 음성시각 정서 인식을 위한 자기주의 융합
초록

본 논문에서는 오디오비주얼 정서 인식을 사례로 삼아 다중모달 데이터 분석 문제를 다룬다. 우리는 원시 데이터로부터 학습이 가능한 아키텍처를 제안하고, 각각 다른 모달리티 융합 메커니즘을 가진 세 가지 변형을 설명한다. 기존 연구 대부분은 추론 과정에서 두 모달리티가 항상 존재하는 이상적인 상황을 전제로 하지만, 본 연구는 한 모달리티가 부재하거나 노이즈가 존재하는 제약 없는 환경에서 모델의 견고성을 평가하고, 이를 극복하기 위한 모달리티 드롭아웃 방식을 제안한다. 특히 중요한 점은, 이러한 접근 방식을 따를 경우 한 모달리티의 부재 또는 노이즈 상황에서 성능이 크게 향상되는 것뿐만 아니라, 전통적인 이상적인 환경에서도 경쟁 기법들을 능가하는 성능을 보인다는 점이다.

부분 데이터를 갖는 음성시각 정서 인식을 위한 자기주의 융합 | 최신 연구 논문 | HyperAI초신경