2달 전

Conv-TasNet: 이상적인 시간-주파수 진폭 마스킹을 넘어서는 음성 분리 방법

Yi Luo; Nima Mesgarani
Conv-TasNet: 이상적인 시간-주파수 진폭 마스킹을 넘어서는 음성 분리 방법
초록

최근 단일 채널, 화자 독립적인 음성 분리 방법이 큰 발전을 이루었습니다. 그러나 이러한 방법들의 정확도, 지연 시간, 그리고 계산 비용은 여전히 충분하지 않습니다. 과거의 대부분 방법들은 혼합 신호의 시간-주파수 표현을 통해 분리 문제를 공식화하였는데, 이에는 신호의 위상과 크기의 분리, 음성 분리를 위한 시간-주파수 표현의 부적절성, 스펙트로그램 계산 시 긴 지연 시간 등 여러 가지 단점이 있습니다. 이러한 단점을 해결하기 위해, 우리는 완전 컨벌루션 시간 영역 오디오 분리 네트워크(Conv-TasNet)를 제안합니다. Conv-TasNet은 각각의 화자를 분리하기 위해 최적화된 음성 파형 표현을 생성하는 선형 인코더를 사용합니다. 화자 분리는 인코더 출력에 가중 함수(마스크) 집합을 적용하여 이루어집니다. 수정된 인코더 표현은 선형 디코더를 통해 다시 파형으로 역변환됩니다. 마스크는 1차원 확장 컨벌루션 블록으로 구성된 시계열 컨벌루션 네트워크(TCN)를 사용하여 찾으며, 이는 네트워크가 작은 모델 크기를 유지하면서도 음성 신호의 장기 의존성을 모델링할 수 있게 합니다. 제안된 Conv-TasNet 시스템은 두 명 및 세 명 화자 혼합에서 이전의 시간-주파수 마스킹 방법보다 크게 우수한 성능을 보입니다. 또한, Conv-TasNet은 객관적인 왜곡 측정과 인간 청취자의 주관적 품질 평가 모두에서 두 명 화자 음성 분리에서 몇몇 이상적인 시간-주파수 크기 마스크들을 능가합니다. 마지막으로, Conv-TasNet은 훨씬 더 작은 모델 크기와 짧은 최소 지연 시간을 가지고 있어 오프라인 및 실시간 음성 분리 애플리케이션에 적합한 솔루션이 됩니다.

Conv-TasNet: 이상적인 시간-주파수 진폭 마스킹을 넘어서는 음성 분리 방법 | 최신 연구 논문 | HyperAI초신경