
초록
이 논문은 딥 노이즈 억제 챌린지(DNS-Challenge)의 일환으로 실시간 음성 향상에 활용할 수 있는 이중 신호 변환 LSTM 네트워크(DTLN)를 제안한다. 이 방법은 스택형 네트워크 아키텍처를 통해 단기 푸리에 변환(STFT)과 학습된 분석 및 합성 기저를 결합하며, 파라미터 수는 100만 개 미만이다. 모델은 챌린지 주최 측이 제공한 500시간의 노이즈가 포함된 음성 데이터를 기반으로 학습되었다. 제안된 네트워크는 실시간 처리(1프레임 입력, 1프레임 출력)가 가능하며, 경쟁적인 성능을 달성하고 있다. 두 가지 신호 변환 방식을 결합함으로써 DTLN은 크기 스펙트럼에서 정보를 안정적으로 추출할 수 있으며, 학습된 특징 기저를 통해 위상 정보를 효과적으로 반영할 수 있다. 이 방법은 최신 기술 수준의 성능을 보이며, 평균 관측 점수(MOS) 기준으로 DNS-Challenge 기준 모델보다 절대 0.24점 높은 성능을 기록하였다.