다중 모드 프롬프트 트랜스포머와 하이브리드 대조 학습을 이용한 대화에서의 감정 인식

대화에서의 감정 인식(Emotion Recognition in Conversation, ERC)은 인간-기계 상호작용의 발전을 주도하는 중요한 역할을 합니다. 감정은 여러 모달에 존재할 수 있으며, 다중모달 ERC는 주로 두 가지 문제를 직면하고 있습니다: (1) 크로스-모달 정보 융합 과정에서의 노이즈 문제, 그리고 (2) 의미적으로 유사하지만 범주가 다른 적은 샘플 감정 라벨의 예측 문제입니다. 이러한 문제들을 해결하고 각 모달의 특성을 충분히 활용하기 위해 다음과 같은 전략을 채택했습니다: 첫째, 강한 표현 능력을 가진 모달에서는 깊은 감정 큐 추출을 수행하였으며, 약한 표현 능력을 가진 모달에는 다중모달 프롬프트 정보로서 특성 필터를 설계하였습니다. 둘째, 크로스-모달 정보 융합을 수행하기 위해 다중모달 프롬프트 트랜스포머(Multimodal Prompt Transformer, MPT)를 설계하였습니다. MPT는 트랜스포머의 각 어텐션 레이어에 다중모달 융합 정보를 임베딩하여, 프롬프트 정보가 텍스트 특성의 인코딩에 참여하고 다단계 텍스트 정보와 융합되어 더 나은 다중모달 융합 특성을 얻도록 합니다. 마지막으로, 적은 샘플 라벨 처리 능력을 최적화하기 위해 하이브리드 대조 학습(Hybrid Contrastive Learning, HCL) 전략을 사용하였습니다. 이 전략은 비지도 대조 학습을 통해 다중모달 융합의 표현 능력을 개선하고 지도 대조 학습을 통해 적은 샘플 라벨의 정보를 추출합니다. 실험 결과는 제안된 모델이 두 벤치마크 데이터셋에서 기존 최신 모델들보다 우수한 성능을 보임을 입증하였습니다.