M2FNet: 대화 내 정서 인식을 위한 다중 모달 퓨전 네트워크

대화 내 감정 인식(Emotion Recognition in Conversations, ERC)은 공감 능력을 갖춘 인간-기계 상호작용을 개발하는 데 핵심적인 역할을 한다. 대화 영상에서는 감정이 음성, 영상, 대본이라는 다중 모달리티에서 동시에 나타날 수 있다. 그러나 각 모달리티 고유의 특성으로 인해 다중 모달ERC는 항상 도전적인 과제로 여겨져 왔다. 기존의 ERC 연구는 주로 대화 내 텍스트 정보에 집중하며, 나머지 두 모달리티(음성 및 영상)는 무시하는 경향이 있다. 본 연구에서는 다중 모달 접근 방식을 통해 감정 인식 정확도를 향상시킬 수 있음을 기대하고, 시각, 음성, 텍스트 모달리티로부터 감정 관련 특징을 추출하는 다중 모달 융합 네트워크(Multi-modal Fusion Network, M2FNet)를 제안한다. M2FNet는 입력 데이터의 감정이 풍부한 잠재 표현을 다중 헤드 어텐션 기반 융합 메커니즘을 통해 통합한다. 또한 음성 및 시각 모달리티에서 잠재 특징을 추출하기 위한 새로운 특징 추출기(feature extractor)를 도입하였으며, 이 특징 추출기는 새로운 적응형 마진 기반 트리플릿 손실 함수(adaptive margin-based triplet loss function)를 사용하여 음성 및 시각 데이터로부터 감정 관련 특징을 학습하도록 훈련된다. 기존 ERC 기법들은 한 가지 벤치마크 데이터셋에서는 우수한 성능을 보이지만, 다른 데이터셋에서는 성능이 저하되는 경향이 있다. 본 연구의 결과는 제안된 M2FNet 아키텍처가 잘 알려진 MELD 및 IEMOCAP 데이터셋에서 가중 평균 F1 스코어 측면에서 기존 모든 방법을 능가하며, ERC 분야에서 새로운 최고 성능(state-of-the-art)을 달성함을 보여준다.