19일 전
보조 교차모달 상호작용을 갖춘 관계적 시계열 그래프 신경망을 이용한 대화 이해
Cam-Van Thi Nguyen, Anh-Tuan Mai, The-Son Le, Hai-Dang Kieu, Duc-Trong Le

초록
정서 인식은 인간 대화 이해에 있어 핵심적인 과제이다. 언어, 음성, 얼굴 표정과 같은 다중 모달 데이터의 개념이 도입되면서 이 과제는 더욱 복잡해지고 있다. 전형적인 해결 방식으로는 대화 내 각 문장(발화)에 대한 정서 레이블을 예측하기 위해 전역적(global) 및 국소적(local) 컨텍스트 정보를 활용하는 것이 있다. 구체적으로 전역적 표현은 대화 수준에서 다중 모달 간 상호작용을 모델링함으로써 얻을 수 있다. 반면 국소적 표현은 발화자들의 시간적 정보나 정서의 변화 추세를 기반으로 추론하는 경우가 많으나, 이 방식은 발화 수준에서 중요한 요소들을 간과하게 된다. 더불어 기존 대부분의 접근법은 다중 모달의 융합 특징을 통합된 입력 형태로 사용하며, 모달 고유의 표현을 적절히 활용하지 못한다. 이러한 문제들을 해결하고자, 본 연구에서는 대화 수준의 다중 모달 상호작용과 발화 수준의 시간적 의존성을 모달 고유의 방식으로 효과적으로 포착할 수 있는 새로운 신경망 프레임워크인 보조적 다중 모달 상호작용을 갖춘 관계적 시간 그래프 신경망(CORECT)을 제안한다. 광범위한 실험을 통해 CORECT는 IEMOCAP 및 CMU-MOSEI 데이터셋에서 다중 모달 정서 인식(multimodal ERC) 과제에서 최첨단 성능을 달성함으로써 그 효과성을 입증하였다.