
초록
이 논문에서 우리는 사전 코크테일 파티 문제(pre-cocktail party problem)에 대한 단일 마이크로 음성 분리의 엔드투엔드 접근법으로 TasTas \cite{shi2020speech}를 제안한다. 공개된 WSJ0-5mix 데이터 코퍼스를 이용한 실험 결과, SDR(신호 대 간섭비)가 10.41dB 향상되었다. 또한 학습 과정에 온라인 음성 데이터 리믹싱 증강 기법 \cite{zeghidour2020wavesplit}을 도입할 경우, SDR 향상률이 11.14dB까지 가능하다. 본 연구에서 재구현한 DPRNN-TasNet은 https://github.com/ShiZiqiang/dual-path-RNNs-DPRNNs-based-speech-separation 에 공개하였으며, 본 논문에서 제안한 TasTas는 이 DPRNN-TasNet 구현 기반으로 개발되었다. 따라서 본 논문의 결과는 비교적 쉽게 재현이 가능할 것으로 기대된다.