2달 전

단일 채널 음성 제버베레이션을 위한 발화 가중 다ilated 시계열 합성곱 네트워크

William Ravenscroft; Stefan Goetze; Thomas Hain
단일 채널 음성 제버베레이션을 위한 발화 가중 다ilated 시계열 합성곱 네트워크
초록

음향 제반동은 많은 음성 기술 응용 분야에서 중요한 단계입니다. 이 분야의 최근 연구는 주로 딥 뉴럴 네트워크 모델에 의해 주도되었습니다. 시간적 합성곱 신경망(TCNs)은 음향 제반동 작업에서 시퀀스 모델링을 위해 제안된 딥 러닝 모델입니다. 본 연구에서는 TCN 모델에서 표준 깊이별 분리 합성곱을 대체하기 위해 가중치 다일자 깊이별 분리 합성곱을 제안합니다. 이 제안된 합성곱은 네트워크의 각 합성곱 블록에서 수신 필드 내의 더 국소적이거나 더 광범위한 정보에 동적으로 초점을 맞출 수 있도록 합니다. 실험 결과, 이 가중치 다일자 시간적 합성곱 신경망(WD-TCN)은 다양한 모델 구성과 함께 TCN보다 일관되게 우수한 성능을 보였으며, WD-TCN 모델을 사용하는 것이 합성곱 블록의 수를 늘리는 것보다 매개변수 효율성이 높은 방법으로 모델 성능을 향상시키는 것으로 나타났습니다. 베이스라인 TCN 대비 최고의 성능 개선은 0.55 dB 스케일 불변 신호 대 왜곡 비율(SISDR)이며, 최고 성능을 보이는 WD-TCN 모델은 WHAMR 데이터셋에서 12.26 dB SISDR를 달성했습니다.

단일 채널 음성 제버베레이션을 위한 발화 가중 다ilated 시계열 합성곱 네트워크 | 최신 연구 논문 | HyperAI초신경