2달 전

단일 채널 음성 제버베레이션을 위한 시간적 합성곱 네트워크의 수용 영역 분석

William Ravenscroft; Stefan Goetze; Thomas Hain
단일 채널 음성 제버베레이션을 위한 시간적 합성곱 네트워크의 수용 영역 분석
초록

음향 제반향은 견고한 음성 처리 작업에서 종종 중요한 요구사항입니다. 감독된 딥 러닝(DL) 모델은 단일 채널 음성 제반향에서 최신 성능을 제공합니다. 시간적 컨볼루션 네트워크(TCNs)는 음성 향상 작업에서 시퀀스 모델링에 일반적으로 사용됩니다. TCNs의 특징 중 하나는 수용 영역(RF, Receptive Field)이 특정 모델 구성에 따라 달라진다는 점으로, 이는 개별 출력 프레임을 생성하기 위해 관찰할 수 있는 입력 프레임의 수를 결정합니다. TCNs가 시뮬레이션된 음성 데이터의 제반향을 수행할 수 있다는 것은 이미 증명되었지만, 특히 RF에 초점을 맞춘 철저한 분석은 아직 문헌에서 부족합니다. 본 논문에서는 모델 크기와 TCNs의 RF에 따른 제반향 성능을 분석합니다. T60 값이 더 큰 방 임펄스 반응(RIRs, Room Impulse Responses)을 포함하도록 확장된 WHAMR 코퍼스를 사용한 실험 결과, 작은 TCN 모델을 학습할 때 더 큰 RF가 성능 향상에 크게 기여함을 보여줍니다. 또한, T60 값이 더 큰 RIRs의 제반향에서 TCNs가 더 넓은 RF로부터 혜택을 받음을 입증하였습니다.

단일 채널 음성 제버베레이션을 위한 시간적 합성곱 네트워크의 수용 영역 분석 | 최신 연구 논문 | HyperAI초신경