3달 전

FullSubNet: 실시간 단일 채널 음성 개선을 위한 전체 대역 및 하위 대역 융합 모델

Xiang Hao, Xiangdong Su, Radu Horaud, Xiaofei Li
FullSubNet: 실시간 단일 채널 음성 개선을 위한 전체 대역 및 하위 대역 융합 모델
초록

본 논문은 단일 채널 실시간 음성 강화를 위한 전대역 및 하위대역 융합 모델인 FullSubNet을 제안한다. 전대역 및 하위대역 모델은 각각 전대역과 하위대역 노이즈 스펙트럼 특징을 입력으로 받아, 전대역 및 하위대역 음성 목표를 출력하는 모델을 의미한다. 하위대역 모델은 각 주파수 대역을 독립적으로 처리하며, 입력은 특정 주파수와 여러 주변 주파수의 정보로 구성되며, 출력은 해당 주파수에 대한 클리어 음성 목표를 예측하는 것이다. 이 두 유형의 모델은 각각 고유한 특성을 지닌다. 전대역 모델은 전반적인 스펙트럼 맥락과 장거리 간대역 상관관계를 잘 포착할 수 있지만, 신호의 정상성(Stationarity)을 모델링하거나 국소적 스펙트럼 패턴에 주목하는 능력이 부족하다. 반면 하위대역 모델은 이러한 측면에서 전대역 모델과 정반대의 특성을 지닌다. 본 연구에서 제안하는 FullSubNet은 순차적으로 순수한 전대역 모델과 순수한 하위대역 모델을 연결하고, 실용적인 공동 학습 방식을 통해 두 모델의 장점을 통합한다. 제안된 방법의 성능을 평가하기 위해 DNS 챌린지(DNS Challenge, INTERSPEECH 2020) 데이터셋을 기반으로 실험을 수행하였다. 실험 결과, 전대역과 하위대역 정보가 서로 보완적임을 확인하였으며, FullSubNet이 이들 정보를 효과적으로 융합함을 입증하였다. 또한 FullSubNet의 성능은 DNS 챌린지(2020)에서 상위 등수를 기록한 기존 방법들을 모두 상회함을 확인하였다.