
초록
이 논문은 다중 모달리티 간의 최적의 특징 인코더 선택 및 융합을 조사하고, 이를 하나의 신경망에 통합하여 감정 탐지 성능을 향상시키는 방법을 제안한다. 다양한 융합 방법을 비교하고, 다중 모달리티 융합 네트워크 내에서 다중 손실 학습의 영향을 분석함으로써 하위 네트워크 성능과 관련된 예상치 못한 중요한 발견을 하였다. 또한, 맥락 정보를 통합함으로써 모델 성능이 크게 향상됨을 확인하였다. 최적의 모델은 세 가지 데이터셋(CMU-MOSI, CMU-MOSEI, CH-SIMS)에서 최신 기술 수준(SOTA)의 성능을 달성하였다. 이러한 결과는 신경망 내 감정 탐지 성능을 향상시키기 위한 최적화된 특징 선택 및 융합 접근 방식을 위한 로드맵을 제시한다.