2달 전
다중 화자 환경에서 얼굴 랜드마크 기반 화자 독립형 오디오-비주얼 음성 향상
Giovanni Morrone; Luca Pasa; Vadim Tikhanoff; Sonia Bergamaschi; Luciano Fadiga; Leonardo Badino

초록
본 논문에서는 칵테일 파티 상황에서 관심 대상 화자의 음성을 향상시키는 문제를 다루며, 이때 관심 대상 화자의 시각 정보가 제공된다고 가정합니다. 대부분의 이전 연구와 달리, 우리는 일반적으로 크기가 작은 오디오-비디오 데이터셋에서 시각적 특징을 학습하지 않고, 이미 별도의 이미지 데이터셋으로 훈련된 얼굴 랜드마크 검출기(얼굴 특징점 검출기)를 사용합니다. 이러한 랜드마크는 LSTM 기반 모델에 의해 시간-주파수 마스크를 생성하는데 사용되며, 이 마스크는 혼합 음성 스펙트로그램에 적용됩니다. 결과는 다음과 같습니다: (i) 랜드마크 움직임 특징이 이 작업에 매우 효과적인 특징임을 보여줍니다, (ii) 이전 연구와 유사하게, 마스킹을 통해 매개된 목표 화자의 스펙트로그램 재구성이 직접적인 스펙트로그램 재구성보다 현저히 정확하다는 점을 확인할 수 있습니다, 그리고 (iii) 가장 좋은 마스크는 움직임 랜드마크 특징과 입력 혼합 음성 스펙트로그램 모두에 의존한다는 것을 알 수 있습니다. 우리 지식의 범위 내에서, 제안된 모델들은 제한된 크기의 GRID 및 TCD-TIMIT 데이터셋에서 훈련되고 평가되어 다중 화자 환경에서 화자 독립적인 음성 향상을 실현한 최초의 모델들입니다.