17일 전

MMLatch: 다중모달 감정 분석을 위한 바텀업 톱다운 융합

Georgios Paraskevopoulos, Efthymios Georgiou, Alexandros Potamianos
MMLatch: 다중모달 감정 분석을 위한 바텀업 톱다운 융합
초록

현재의 다중모달 융합을 위한 딥러닝 접근법은 고수준 및 중간 수준의 잠재적 모달 표현(지연/중간 융합) 또는 저수준의 감각 입력(조기 융합)을 하향식으로 융합하는 방식에 의존하고 있다. 인간 인지 모델은 고수준 표현이 감각 입력의 인식 방식에 영향을 미친다는 상향식 융합의 중요성을 강조한다. 즉, 인지가 인식에 영향을 준다는 것이다. 그러나 현재의 딥러닝 모델은 이러한 상향식 상호작용을 포착하지 못하고 있다. 본 연구에서는 네트워크 학습 중 전방 전파 과정에서 피드백 메커니즘을 활용하여 상향식 다중모달 상호작용을 모사하는 신경망 아키텍처를 제안한다. 제안된 메커니즘은 각 모달에 대해 고수준 표현을 추출하고, 이를 감각 입력을 마스킹하는 데 사용함으로써 상향식 특징 마스킹을 가능하게 한다. 제안된 모델을 CMU-MOSEI 데이터셋에서 다중모달 감성 인식에 적용한 결과, 기존에 잘 정립된 MulT 및 강력한 지연 융합 베이스라인 모델에 비해 일관된 성능 향상을 보이며, 최신 기술 수준(SOTA)의 성과를 달성하였다.