17일 전

MANNER: 노이즈 제거를 위한 다중 시점 주의망

Hyun Joon Park, Byung Ha Kang, Wooseok Shin, Jin Sob Kim, Sung Won Han
MANNER: 노이즈 제거를 위한 다중 시점 주의망
초록

음성 강화 분야에서 시간 영역 방법은 높은 성능과 효율성을 동시에 달성하는 데 어려움을 겪는다. 최근에는 장거리 시계열 특징을 표현하기 위해 이중 경로 모델이 도입되었지만, 여전히 표현력이 제한적이며 메모리 효율성이 낮다는 문제가 있다. 본 연구에서는 시간 영역 신호에 적용 가능한 컨볼루션 인코더-디코더와 다중 시점 주의(block)를 결합한 '노이즈 제거를 위한 다중 시점 주의망(Multi-view Attention Network for Noise ERasure, MANNER)'을 제안한다. MANNER은 잡음이 포함된 음성 신호로부터 세 가지 서로 다른 표현을 효율적으로 추출하고, 고품질의 정제된 음성 신호를 추정한다. 제안한 모델은 VoiceBank-DEMAND 데이터셋을 대상으로 다섯 가지 객관적 음성 품질 평가 지표를 기준으로 평가되었으며, 실험 결과 MANNER가 최신 기술 수준의 성능을 달성하면서도 잡음이 포함된 음성 신호를 효율적으로 처리함을 확인하였다.