4달 전

대화에서 다중 모드 감정 인식을 그래프 스펙트럼의 관점으로 재검토하기

Tao Meng; Fuchen Zhang; Yuntao Shou; Wei Ai; Nan Yin; Keqin Li
대화에서 다중 모드 감정 인식을 그래프 스펙트럼의 관점으로 재검토하기
초록

다중모달 대화 맥락에서 일관되고 보완적인 의미 특징을 효과적으로 포착하는 것은 다중모달 대화 감정 인식(Multimodal Emotion Recognition in Conversation, MERC)에 있어 매우 중요합니다. 기존 방법들은 주로 그래프 구조를 사용하여 대화 맥락의 의미적 의존성을 모델링하고, 감정 인식을 위해 그래프 신경망(Graph Neural Networks, GNN)을 활용하여 다중모달 의미 특징을 포착합니다. 그러나 이러한 방법들은 GNN의 고유한 특성인 과도한 평활화(over-smoothing)와 저역 필터링(low-pass filtering)으로 인해 장거리 일관성 정보와 보완 정보를 효과적으로 학습하지 못하는 한계가 있습니다. 일관성 정보와 보완성 정보는 각각 저주파 정보와 고주파 정보에 해당하므로, 본 논문에서는 그래프 스펙트럼의 관점에서 다중모달 대화 감정 인식 문제를 재검토합니다. 특히, 우리는 그래프 스펙트럼 기반의 다중모달 일관성 및 보완 협업 학습 프레임워크인 GS-MCC를 제안합니다. 먼저, GS-MCC는 슬라이딩 윈도우를 사용하여 대화 관계를 모델링하기 위한 다중모달 상호작용 그래프를 구성하고, 효율적인 푸리에 그래프 연산자를 통해 각각 장거리 고주파 및 저주파 정보를 추출합니다. 그 다음, GS-MCC는 보완성과 일관된 의미 협업을 반영하는 고주파 및 저주파 신호에 대한 자기 지도 신호(self-supervised signals)를 구성하기 위해 대조 학습(contrastive learning)을 사용하여, 이로써 고주파 및 저주파 정보가 실제 감정을 더 잘 반영할 수 있는 능력을 향상시킵니다. 마지막으로, GS-MCC는 협업된 고주파 및 저주파 정보를 MLP 네트워크와 소프트맥스 함수(softmax function)에 입력하여 감정 예측을 수행합니다. 광범위한 실험 결과는 본 논문에서 제안된 GS-MCC 아키텍처가 두 벤치마크 데이터 세트에서 우수함을 입증하였습니다.