9일 전
재미있는: 다중모달 정서 인식을 위한 공동 모달리티 융합 및 그래프 대조 학습
Dongyuan Li, Yusong Wang, Kotaro Funakoshi, Manabu Okumura

초록
다중모달 정서 인식은 인간-기계 상호작용 분야에서의 응용 가능성으로 인해 점점 더 많은 주목을 받고 있다. 이는 다양한 모달리티의 각 발화에 대해 정서를 인식하는 것을 목표로 한다. 기존의 그래프 기반 방법들은 대화 내에서 전반적인 맥락적 특징과 국소적인 다양한 유니모달 특징을 동시에 표현하는 데 한계가 있다. 게다가 그래프 레이어 수가 증가함에 따라 과도한 평활화(over-smoothing) 현상에 쉽게 노출된다. 본 논문에서는 다중모달 정서 인식을 위한 연합 모달리티 융합 및 그래프 대조 학습 기법(Joyful)을 제안한다. Joyful은 모달리티 융합, 대조 학습, 정서 인식을 공동 최적화하는 방식으로 설계되었다. 구체적으로, 전반적인 맥락적 특징과 유니모달 고유 특징 간의 깊은 상호작용과 융합을 가능하게 하는 새로운 다중모달 융합 메커니즘을 설계하였다. 또한, 서로 다른 감정을 가진 샘플에 대해 더 구분력 있는 표현을 학습하기 위해 인터-뷰( inter-view) 및 인트라-뷰(intra-view) 대조 손실을 포함하는 그래프 대조 학습 프레임워크를 도입하였다. 세 가지 벤치마크 데이터셋에서 실시한 광범위한 실험 결과, Joyful이 모든 기준 모델 대비 최고 성능(SOTA)을 달성함을 확인하였다.