다시 살펴보는 다중 모드 감정 학습: 광범위한 상태 공간 모델과 확률 지도 융합

다중 모드 대화 감정 인식(Multi-modal Emotion Recognition in Conversation, MERC)은 인간-컴퓨터 상호작용 및 추천 시스템 등 다양한 분야에서 많은 관심을 받고 있습니다. 기존의 대부분 연구는 다중 모드 특성으로부터 감정적 맥락 정보를 추출하고 감정 분류를 수행하기 위해 특성 해체와 융합을 수행합니다. MERC의 특성을 재검토한 결과, 우리는 특성 해체 단계에서 장거리 맥락 의미 정보를 추출하고, 특성 융합 단계에서는 모달 간 의미 정보 일관성을 최대화해야 한다고 주장합니다. 최근의 상태 공간 모델(State Space Models, SSMs)에 영감을 받아, Mamba는 장거리 의존성을 효율적으로 모델링할 수 있습니다. 따라서 본 연구에서는 위의 통찰력을 완전히 고려하여 MERC의 성능을 더욱 향상시키기 위해 노력하였습니다.구체적으로, 한편으로는 특성 해체 단계에서 Broad Mamba라는 방법을 제안합니다. 이 방법은 시퀀스 모델링에 있어 자기 주의 메커니즘(self-attention mechanism)에 의존하지 않고, 상태 공간 모델을 사용하여 감정 표현을 압축하며, 광범위 학습 시스템(broad learning systems)을 활용하여 광범위 공간에서 잠재적인 데이터 분포를 탐색합니다. 이전 SSMs와 달리, 우리는 전역 맥락 정보를 추출하기 위해 양방향 SSM 컨볼루션(bidirectional SSM convolution)을 설계하였습니다. 다른 한편으로는 확률 지도(probability guidance) 기반의 다중 모드 융합 전략을 설계하여 모달 간 정보 일관성을 최대화하였습니다.실험 결과, 제안된 방법은 Transformer가 장거리 맥락을 모델링할 때 발생하는 계산 및 메모리 제약을 극복할 수 있으며, MERC에서 차세대 일반 아키텍처로 발전할 큰 잠재력을 보이고 있습니다.