2달 전

음성 추출의 대안적 접근법

Pham, The Hieu ; Nguyen, Phuong Thanh Tran ; Nguyen, Xuan Tho ; Nguyen, Tan Dat ; Nguyen, Duc Dung
음성 추출의 대안적 접근법
초록

오디오 힌트 기반 대상 화자 추출(Target Speaker Extraction, TSE)에 대한 연구는 주로 혼합 음성과 참조 음성을 모델링하는 데 초점을 맞추어 왔으며, 대규모 데이터셋의 존재 덕분에 영어에서 높은 성능을 달성하였습니다. 그러나 언어 간 인간의 음성 특성이 일관되다는 점에는 상대적으로 적은 관심이 쏠렸습니다. 이 격차를 해소하기 위해, 우리는 한 언어에서 다른 언어로 TSE 모델을 미세 조정(fine-tuning) 없이 전환할 수 있는 도전 과제를 해결하는 대체 모델을 소개합니다. 본 연구에서는 화자의 음향 특성을 기반으로 특정 주파수를 수정할 수 있는 게이팅 메커니즘을 제안하였습니다. 이 모델은 청정 영어 음성에서 SI-SDR 17.3544, 청정 음성과 Wham! 노이즈가 혼합된 경우 13.2032의 성능을 보여주며, 다양한 언어에 적응하는 능력 면에서 다른 모든 모델을 능가하였습니다.

음성 추출의 대안적 접근법 | 최신 연구 논문 | HyperAI초신경