2달 전
감성 음성 폭발 인식을 위한 계층적 회귀 체인 프레임워크
Jinchao Li; Xixin Wu; Kaitao Song; Dongsheng Li; Xunying Liu; Helen Meng

초록
언어적 발화를 통한 감정 신호 전달의 일반적인 방법으로, 음성 폭발(Vocal Burst, VB)은 일상적인 사회적 상호작용에서 중요한 역할을 합니다. 인간의 음성 폭발을 이해하고 모델링하는 것은 견고하고 일반적인 인공지능 개발에 필수적입니다. 음성 폭발을 이해하기 위한 계산적 접근 방식에 대한 연구가 점점 더 주목받고 있습니다. 본 연구에서는 감정 상태와 다양한 문화, 저차원(흥분도 및 긍정도)과 고차원(10개의 감정 클래스) 감정 공간, 그리고 고차원 공간 내의 다양한 감정 클래스 간의 여러 관계를 명시적으로 고려하는 체인 회귀 모델 기반의 계층적 프레임워크를 제안합니다. 데이터 희소성 문제를 해결하기 위해 층별 및 시간적 집계 모듈을 사용한 자기 지도 학습(Self-Supervised Learning, SSL) 표현도 활용합니다. 제안된 시스템은 ACII 감성 음성 폭발(A-VB) 챌린지 2022에 참여하여 "TWO" 및 "CULTURE" 태스크에서 1위를 차지했습니다. ACII 챌린지 2022 데이터셋을 기반으로 한 실험 결과는 제안된 시스템의 우수한 성능과 계층적 회귀 체인 모델을 사용하여 여러 관계를 고려하는 효과성을 입증합니다.