
대화 내 감정 인식은 감정 표현의 다중 모달성으로 인해 도전적인 과제이다. 본 연구에서는 순환 신경망과 공주의 주의(코-주목, co-attention) 신경망 모델을 결합하여 다중 모달 감정 인식을 위한 계층적 교차 주의 모델(Hierarchical Cross-Attention Model, HCAM)을 제안한다. 모델의 입력은 두 가지 모달로 구성되며, 1) 학습 가능한 wav2vec 방식으로 처리된 음성 데이터, 2) 양방향 트랜스포머 기반 인코더 표현(Bidirectional Encoder Representations from Transformers, BERT)을 활용한 텍스트 데이터이다. 음성 및 텍스트 표현은 자기 주의(self-attention)를 갖춘 양방향 순환 신경망(Bi-directional Recurrent Neural Network) 계층을 통해 처리되어, 주어진 대화 내 각 발화를 고정 차원의 임베딩으로 변환한다. 감정 인식 작업에 관련된 중요한 발화 수준의 임베딩을 효과적으로 가중하기 위해, 음성 및 텍스트 임베딩은 공주의 주의 층을 통해 통합된다. 음성 계층, 텍스트 계층 및 다중 모달 공주의 주의 계층의 신경망 파라미터는 감정 분류 작업을 위해 계층적으로 학습된다. 제안된 모델은 IEMOCAP, MELD, CMU-MOSI 세 가지 기존의 표준 데이터셋에서 실험을 수행하였으며, 다른 기준 모델들에 비해 유의미한 성능 향상을 보이며, 모든 데이터셋에서 최신 기술(SOTA, State-of-the-Art) 수준의 성능을 달성함을 입증하였다.