18일 전

컨텍스트 종속형 도메인 적대 신경망을 이용한 다중모달 정서 인식

{Rongjun Li, Zhanlei Yang, Jian Huang, Bin Liu, JianHua Tao, Zheng Lian}
초록

정서 인식은 화자 간의 차이와 저자원 학습 샘플의 한계로 인해 여전히 복잡한 과제로 남아 있다. 이러한 문제를 해결하기 위해 본 연구는 정서 인식을 위한 도메인 적대 신경망(Domain Adversarial Neural Networks, DANN)에 초점을 맞춘다. 주된 과제는 정서 레이블을 예측하는 것이며, 부가적인 과제는 화자 정체성이 구분되지 않는 공통적인 표현을 학습하는 것이다. 이 방법을 통해 다양한 화자의 표현을 더욱 가까이 모을 수 있다. 동시에 학습 과정에서 레이블이 없는 데이터를 활용함으로써 저자원 학습 샘플의 영향을 완화할 수 있다. 한편, 기존 연구들은 문맥 정보와 다중 모달 특징이 정서 인식에 중요한 역할을 한다는 점을 밝혀냈다. 그러나 기존의 DANN 기반 접근법들은 이러한 정보를 무시하고 있어 성능에 한계가 있었다. 본 논문에서는 다중 모달 정서 인식을 위한 맥락 의존적 도메인 적대 신경망(Contex-dependent Domain Adversarial Neural Network)을 제안한다. 제안한 방법의 유효성을 검증하기 위해 IEMOCAP이라는 기준 데이터셋을 이용해 실험을 수행하였다. 실험 결과, 제안한 방법은 최신 기술 대비 절대적인 성능 향상 3.48%를 보였다.