3달 전

D²Net: 이중 분기 인코더와 이중 경로 트랜스포머 기반의 노이즈 제거 및 리버버베이션 제거 네트워크

{and Ying Hu, Yadong Chen, Wenbing Wei, Liusong Wang}
D²Net: 이중 분기 인코더와 이중 경로 트랜스포머 기반의 노이즈 제거 및 리버버베이션 제거 네트워크
초록

복잡한 음향 환경에서 단일 채널 혼합 음성에 대한 동시에 노이즈 제거와 리버버베이션 제거는 매우 도전적인 과제로 간주된다. 본 논문에서는 서로 다른 군집도의 특징을 추출하고 선택적으로 융합할 수 있도록 이중 브랜치 인코더(TBE, Two-Branch Encoder)를 설계한 노이즈 제거 및 리버버베이션 제거 네트워크인 D²Net을 제안한다. 또한, 이중 경로 트랜스포머 내에 국소 밀집 합성 주의(LDSA, Local Dense Synthesizer Attention)를 도입하여 국소 정보에 대한 인지 능력을 향상시킨 글로벌-로컬 이중 경로 트랜스포머(GLDPT, Global-Local Dual-Path Transformer)를 설계하였다. 제안한 D²Net은 VoiceBank+DEMAND 및 WHAMR! 데이터셋을 이용하여 평가되었으며, 아블레이션 스터디를 수행하였다. 동시에 WHAMR! 데이터셋의 세 가지 유형의 데이터를 활용하여 D²Net이 노이즈 제거 전용, 리버버베이션 제거 전용, 그리고 동시에 노이즈 제거 및 리버버베이션 제거 작업에 대한 성능을 각각 검증하였다. 실험 결과, 제안한 모델은 비교 대상 모델들을 모두 상회하며, 동시에 노이즈 제거 및 리버버베이션 제거, 리버버베이션 제거 전용, 노이즈 제거 전용의 모든 작업에서 뛰어난 성능을 달성하였으며, 네트워크 파라미터 수를 적게 유지하는 점에서도 우수성을 입증하였다.