2달 전

분리 및 확산: 사전 학습된 확산 모델을 사용한 소스 분리 개선

Shahar Lutati; Eliya Nachmani; Lior Wolf
분리 및 확산: 사전 학습된 확산 모델을 사용한 소스 분리 개선
초록

음성 분리 문제, 또는 칵테일 파티 문제(Cocktail Party Problem)라고도 하는 이 문제는 여러 음성 신호의 혼합에서 단일 음성 신호를 분리하는 작업을 의미합니다. 이전의 소스 분리 연구에서는 인간의 음성을 다루는 영역에서 소스 분리 작업에 대한 상한치를 도출하였습니다. 이 상한치는 결정론적 모델(Deterministic Models)에 대해 도출되었습니다. 최근 생성 모델(Generative Models)의 발전은 이러한 상한치를 도전하고 있습니다. 우리는 어떻게 이 상한치가 무작위 생성 모델(Random Generative Models)의 경우로 일반화될 수 있는지를 보여줍니다. 결정론적 분리 모델의 출력에 사전 학습된 단일 화자 음성을 모델링하기 위한 확산 모델 Vocoder(Diffusion Model Vocoder)를 적용하면 최신 수준의 분리 결과를 얻을 수 있습니다. 이를 위해서는 분리 모델의 출력과 확산 모델의 출력을 결합해야 함을 보여주었습니다. 우리의 방법에서는 학습된 모델이 추론한 가중치를 사용하여 주파수 영역에서 선형 결합(Linear Combination)을 수행합니다. 우리는 다수의 벤치마크에서 2명, 3명, 5명, 10명, 그리고 20명 화자의 경우에 최신 수준의 결과를 보여주었습니다. 특히 두 명의 화자에 대해서는 기존에 상한 성능으로 여겨졌던 것을 초월할 수 있음을 입증하였습니다.

분리 및 확산: 사전 학습된 확산 모델을 사용한 소스 분리 개선 | 최신 연구 논문 | HyperAI초신경