2달 전
실내외 환경에서 음성의 감정 인식을 위한 크로스 모달 전이 활용
Samuel Albanie; Arsha Nagrani; Andrea Vedaldi; Andrew Zisserman

초록
대규모 인간이 라벨링한 음성 데이터셋을 감정 인식 모델 훈련용으로 얻는 것은 주석 비용과 라벨의 모호성 때문에 유명하게 어려운 작업입니다. 본 연구에서는 어떠한 형태의 라벨링된 오디오에 접근할 수 없는 상태에서 음성 분류를 위한 임베딩 학습 작업을 고려합니다. 우리의 접근 방식은 간단한 가설에 기반합니다: 음성의 감정 내용이 발화자의 얼굴 표현과 상관관계가 있다는 것입니다. 이 관계를 활용하여, 우리는 시각 영역(얼굴)에서 음성 영역(목소리)으로 표현 주석을 크로스-모달 디스틸레이션을 통해 전송할 수 있음을 보여줍니다. 다음과 같은 공헌을 하였습니다: (i) 표준 벤치마크에서 최고 성능을 달성하는 강력한 교사 네트워크를 개발하였습니다(감정 인식을 위한 얼굴); (ii) 교사를 사용하여, 라벨링된 오디오 데이터에 접근할 수 없는 상태에서 음성 감정 인식을 위한 표현(임베딩)을 학습하도록 학생 네트워크를 처음부터 훈련하였습니다(tabula rasa); 그리고 (iii) 외부 벤치마크 데이터셋에서 음성 감정 임베딩이 음성 감정 인식에 사용될 수 있음을 보여주었습니다. 코드, 모델 및 데이터는 이용 가능합니다.