고차원 잠재 도메인에서 세밀한 인코딩을 통한 단계별 개선 음성 분리 네트워크

단일 채널 음성 분리의 핵심은 다양한 발화자로부터 오는 음성 신호의 혼합물을, 각 발화자에 해당하는 신호를 정확히 분리할 수 있도록 설계된 잠재적 임베딩 공간으로 인코딩하는 방법에 있다. 기존의 음성 분리 방법들은 음성 신호를 주파수 도메인으로 변환하여 분리를 수행하거나, 합성 필터 기반의 잠재 도메인을 구성함으로써 분리 가능한 임베딩 공간을 학습하려는 접근을 취한다. 후자의 방법들은 임베딩 공간을 학습함으로써 음성 분리 성능에 상당한 향상을 이루었지만, 본 연구에서는 단일 잠재 도메인에 의해 정의되는 임베딩 공간만으로는 음성 분리에 있어 완전히 분리 가능한 인코딩 공간을 제공하기에는 부족하다고 주장한다. 본 논문에서는 '단계적 정밀화 음성 분리 네트워크(Stepwise-Refining Speech Separation Network, SRSSN)'를 제안한다. 이는 거시적에서 미시적까지의 분리 프레임워크를 따르는 것으로, 먼저 1차 잠재 도메인을 학습하여 인코딩 공간을 정의하고, 거시적 단계에서 근사적인 분리를 수행한다. 이후, 기존 잠재 도메인의 각 기저 함수를 기반으로 새로운 잠재 도메인을 학습함으로써 고차원 잠재 도메인을 구성하는 정밀화 단계를 거쳐, 보다 정밀한 분리가 가능하도록 한다. 제안한 SRSSN의 효과성을 다양한 실험을 통해 검증하였으며, WSJ0-2/3mix 데이터셋에서 노이즈가 없는 청정 환경에서의 음성 분리 실험과 WHAM!/WHAMR! 데이터셋에서의 노이즈 또는 반향이 존재하는 환경에서의 음성 분리 실험을 포함한다. 또한, 본 모델이 분리한 음성 신호를 대상으로 음성 인식 실험을 수행하여 음성 분리 성능을 간접적으로 평가하였다.