2달 전

실내외 환경에서 음성의 감정 인식을 위한 크로스 모달 전이 활용

Samuel Albanie; Arsha Nagrani; Andrea Vedaldi; Andrew Zisserman
실내외 환경에서 음성의 감정 인식을 위한 크로스 모달 전이 활용
초록

대규모 인간이 라벨링한 음성 데이터셋을 감정 인식 모델 훈련용으로 얻는 것은 주석 비용과 라벨의 모호성 때문에 유명하게 어려운 작업입니다. 본 연구에서는 어떠한 형태의 라벨링된 오디오에 접근할 수 없는 상태에서 음성 분류를 위한 임베딩 학습 작업을 고려합니다. 우리의 접근 방식은 간단한 가설에 기반합니다: 음성의 감정 내용이 발화자의 얼굴 표현과 상관관계가 있다는 것입니다. 이 관계를 활용하여, 우리는 시각 영역(얼굴)에서 음성 영역(목소리)으로 표현 주석을 크로스-모달 디스틸레이션을 통해 전송할 수 있음을 보여줍니다. 다음과 같은 공헌을 하였습니다: (i) 표준 벤치마크에서 최고 성능을 달성하는 강력한 교사 네트워크를 개발하였습니다(감정 인식을 위한 얼굴); (ii) 교사를 사용하여, 라벨링된 오디오 데이터에 접근할 수 없는 상태에서 음성 감정 인식을 위한 표현(임베딩)을 학습하도록 학생 네트워크를 처음부터 훈련하였습니다(tabula rasa); 그리고 (iii) 외부 벤치마크 데이터셋에서 음성 감정 임베딩이 음성 감정 인식에 사용될 수 있음을 보여주었습니다. 코드, 모델 및 데이터는 이용 가능합니다.