17일 전
MANNER: 노이즈 제거를 위한 다중 시점 주의망
Hyun Joon Park, Byung Ha Kang, Wooseok Shin, Jin Sob Kim, Sung Won Han

초록
음성 강화 분야에서 시간 영역 방법은 높은 성능과 효율성을 동시에 달성하는 데 어려움을 겪는다. 최근에는 장거리 시계열 특징을 표현하기 위해 이중 경로 모델이 도입되었지만, 여전히 표현력이 제한적이며 메모리 효율성이 낮다는 문제가 있다. 본 연구에서는 시간 영역 신호에 적용 가능한 컨볼루션 인코더-디코더와 다중 시점 주의(block)를 결합한 '노이즈 제거를 위한 다중 시점 주의망(Multi-view Attention Network for Noise ERasure, MANNER)'을 제안한다. MANNER은 잡음이 포함된 음성 신호로부터 세 가지 서로 다른 표현을 효율적으로 추출하고, 고품질의 정제된 음성 신호를 추정한다. 제안한 모델은 VoiceBank-DEMAND 데이터셋을 대상으로 다섯 가지 객관적 음성 품질 평가 지표를 기준으로 평가되었으며, 실험 결과 MANNER가 최신 기술 수준의 성능을 달성하면서도 잡음이 포함된 음성 신호를 효율적으로 처리함을 확인하였다.