19일 전

보조 교차모달 상호작용을 갖춘 관계적 시계열 그래프 신경망을 이용한 대화 이해

Cam-Van Thi Nguyen, Anh-Tuan Mai, The-Son Le, Hai-Dang Kieu, Duc-Trong Le
보조 교차모달 상호작용을 갖춘 관계적 시계열 그래프 신경망을 이용한 대화 이해
초록

정서 인식은 인간 대화 이해에 있어 핵심적인 과제이다. 언어, 음성, 얼굴 표정과 같은 다중 모달 데이터의 개념이 도입되면서 이 과제는 더욱 복잡해지고 있다. 전형적인 해결 방식으로는 대화 내 각 문장(발화)에 대한 정서 레이블을 예측하기 위해 전역적(global) 및 국소적(local) 컨텍스트 정보를 활용하는 것이 있다. 구체적으로 전역적 표현은 대화 수준에서 다중 모달 간 상호작용을 모델링함으로써 얻을 수 있다. 반면 국소적 표현은 발화자들의 시간적 정보나 정서의 변화 추세를 기반으로 추론하는 경우가 많으나, 이 방식은 발화 수준에서 중요한 요소들을 간과하게 된다. 더불어 기존 대부분의 접근법은 다중 모달의 융합 특징을 통합된 입력 형태로 사용하며, 모달 고유의 표현을 적절히 활용하지 못한다. 이러한 문제들을 해결하고자, 본 연구에서는 대화 수준의 다중 모달 상호작용과 발화 수준의 시간적 의존성을 모달 고유의 방식으로 효과적으로 포착할 수 있는 새로운 신경망 프레임워크인 보조적 다중 모달 상호작용을 갖춘 관계적 시간 그래프 신경망(CORECT)을 제안한다. 광범위한 실험을 통해 CORECT는 IEMOCAP 및 CMU-MOSEI 데이터셋에서 다중 모달 정서 인식(multimodal ERC) 과제에서 최첨단 성능을 달성함으로써 그 효과성을 입증하였다.

보조 교차모달 상호작용을 갖춘 관계적 시계열 그래프 신경망을 이용한 대화 이해 | 연구 논문 | HyperAI초신경