11일 전

자기지도 학습 음성 정서 인식을 위한 스피커 정규화

Itai Gat, Hagai Aronowitz, Weizhong Zhu, Edmilson Morais, Ron Hoory
자기지도 학습 음성 정서 인식을 위한 스피커 정규화
초록

대규모 음성 정서 인식 데이터셋은 확보하기 어렵고, 소규모 데이터셋은 편향을 포함할 가능성이 있다. 반면, 딥넷 기반 분류기는 이러한 편향을 악용하거나 말하는 사람의 특성과 같은 단순한 패턴을 활용하는 경향이 있다. 이러한 단순화된 패턴은 모델의 일반화 능력을 훼손하는 경우가 많다. 이 문제를 해결하기 위해, 특성 표현에서 화자 특성을 정규화하면서 음성 정서 인식 작업을 학습하는 그래디언트 기반 적대 학습 프레임워크를 제안한다. 제안한 방법은 화자 독립 및 화자 의존 설정 모두에서 효과성을 입증하였으며, 도전적인 IEMOCAP 데이터셋에서 새로운 최고 성능 결과를 달성하였다.

자기지도 학습 음성 정서 인식을 위한 스피커 정규화 | 최신 연구 논문 | HyperAI초신경