EmotionIC: 대화 내 감정 인지에 대한 감정 관성과 전염성 기반 종속성 모델링

최근 인간-컴퓨터 인터페이스 기술의 발전과 적용으로 대화 내 정서 인식(Emotion Recognition in Conversation, ERC)에 대한 관심이 점차 증가하고 있다. 본 논문에서는 ERC 작업을 위한 정서 관성 및 전염성 기반의 종속성 모델링 방법인 EmotionIC(Emotion Inertia and Contagion-driven dependency modeling)을 제안한다. 제안한 EmotionIC는 세 가지 주요 구성 요소로 이루어져 있다. 즉, 정체성 마스킹 다중 헤드 어텐션(Identity Masked Multi-Head Attention, IMMHA), 대화 기반 게이트형 순환 단위(Dialogue-based Gated Recurrent Unit, DiaGRU), 스킵체인 조건부 랜덤 필드(Skip-chain Conditional Random Field, SkipCRF)이다. 기존 ERC 모델들과 비교하여, EmotionIC는 특징 추출 및 분류 수준에서 대화를 보다 체계적으로 모델링할 수 있다. 특히 특징 추출 수준에서 어텐션 기반과 순환 기반 방법의 장점을 통합하려는 시도를 한다. 구체적으로 IMMHA는 발화자 기반의 전역적 맥락적 종속성을 포착하는 데 사용되며, DiaGRU는 발화자 및 시간적 정보를 고려한 국소적 맥락 정보를 추출하는 데 활용된다. 분류 수준에서는 SkipCRF가 대화 내 고차원 이웃 발화들에서 복잡한 정서 흐름을 명시적으로 탐지할 수 있다. 실험 결과, 제안된 방법은 네 가지 벤치마크 데이터셋에서 최첨단 모델들을 상당히 뛰어넘는 성능을 보였다. 제거 실험(Ablation study)을 통해 제안 모듈들이 정서의 관성과 전염성을 효과적으로 모델링할 수 있음을 확인할 수 있었다.