2달 전

TasNet: 실시간, 단일 채널 음성 분리용 시간 영역 오디오 분리 네트워크

Yi Luo; Nima Mesgarani
TasNet: 실시간, 단일 채널 음성 분리용 시간 영역 오디오 분리 네트워크
초록

다중 화자 환경에서 견고한 음성 처리를 위해서는 효과적인 음성 분리가 필요합니다. 최근 딥 러닝 시스템은 이 문제 해결에 있어 상당한 진전을 이루었지만, 특히 실시간 및 짧은 지연 시간 애플리케이션에서는 여전히 어려움이 따릅니다. 대부분의 방법은 혼합 신호의 시간-주파수 표현에서 각 소스에 대한 마스크를 구성하려고 하는데, 이는 반드시 최적의 음성 분리 표현이라고 할 수 없습니다. 또한, 시간-주파수 분해는 위상/크기 분리와 충분한 주파수 해상도를 얻기 위해 필요한 긴 시간 창과 같은 고유한 문제를 초래합니다. 이러한 제약 조건을 극복하기 위해 시간 영역 오디오 분리 네트워크(TasNet)를 제안합니다. 인코더-디코더 프레임워크를 사용하여 직접 시간 영역에서 신호를 모델링하고, 비음수 인코더 출력에서 소스 분리를 수행합니다. 이 방법은 주파수 분해 단계를 제거하고, 인코더 출력에서 소스 마스크 추정 문제로 분리를 줄입니다. 이후 디코더가 이를 합성합니다. 우리의 시스템은 현재 가장 앞선 인과적 및 비인과적 음성 분리 알고리즘을 능가하며, 음성 분리의 계산 비용을 줄이고 출력의 최소 요구 지연 시간을 크게 감소시킵니다. 이로 인해 TasNet은 저전력, 실시간 구현이 필요한 청취 가능한 기기 및 통신 장치와 같은 애플리케이션에 적합합니다.

TasNet: 실시간, 단일 채널 음성 분리용 시간 영역 오디오 분리 네트워크 | 최신 연구 논문 | HyperAI초신경