대화형 다모달 정서 인식에서 모달리티와 컨텍스트에 대한 디센트앵글리케이션과 퓨전 재고

대화 상황에서 다모달 환경에서 기계가 인간의 감정을 이해할 수 있도록 하는 것은 오랫동안 핫한 연구 주제였으며, 이는 대화 내 다모달 감정 분석(Multimodal Emotion Recognition in Conversation, MM-ERC)이라는 과제로 수행된다. 최근 몇 년간 MM-ERC는 지속적인 관심을 받으며, 보다 뛰어난 작업 성능을 달성하기 위한 다양한 방법들이 제안되어 왔다. 기존 대부분의 연구들은 MM-ERC를 표준적인 다모달 분류 문제로 간주하고, 특징의 분리 및 융합을 통해 특징의 활용도를 극대화하는 방식을 채택한다. 그러나 MM-ERC의 특성을 재검토한 결과, 특징의 다모달성과 대화적 맥락화는 특징 분리 및 융합 단계에서 동시에 적절히 모델링되어야 한다고 주장한다. 본 연구에서는 이러한 통찰을 충분히 반영함으로써 작업 성능을 더욱 향상시키는 것을 목표로 한다. 한편으로, 특징 분리 과정에서는 대조 학습 기법을 기반으로, 모달 공간과 발화 공간 양쪽에 걸쳐 특징을 분리하는 이중 수준 분리 메커니즘(Dual-level Disentanglement Mechanism, DDM)을 제안한다. 다른 한편으로, 특징 융합 단계에서는 다모달 통합을 위한 기여도 인지 융합 메커니즘(Contribution-aware Fusion Mechanism, CFM)과 대화 맥락 통합을 위한 맥락 재융합 메커니즘(Context Refusion Mechanism, CRM)을 제안한다. 이들 메커니즘은 다모달 특징과 맥락 특징의 적절한 통합을 조절한다. 구체적으로, CFM은 다모달 특징 기여도를 동적으로 명시적으로 관리하는 반면, CRM은 대화 맥락의 도입을 유연하게 조율한다. 공개된 두 개의 MM-ERC 데이터셋에서 본 시스템은 일관되게 새로운 최고 성능을 달성하였다. 추가 분석을 통해 제안된 모든 메커니즘이 다모달 특징과 맥락 특징을 적응적으로 효과적으로 활용함으로써 MM-ERC 작업에 크게 기여함을 입증하였다. 참고로, 본 연구에서 제안한 방법들은 다른 대화 기반 다모달 작업 전반에 걸쳐 넓은 적용 가능성을 지닌다.