17일 전

DeepFilterNet: 인지적으로 유도된 실시간 음성 강화

Hendrik Schröter, Tobias Rosenkranz, Alberto N. Escalante-B., Andreas Maier
DeepFilterNet: 인지적으로 유도된 실시간 음성 강화
초록

단일 채널 음성 향상에 대한 다중 프레임 알고리즘은 음성 신호 내의 단기적 상관관계를 활용할 수 있다. 딥 필터링(Deep Filtering, DF)은 이러한 상관관계를 활용하기 위해 주파수 도메인에서 복소수 필터를 직접 추정하는 방법을 제안하였다. 본 연구에서는 DeepFilterNet을 활용한 실시간 음성 향상 데모를 제시한다. DeepFilterNet의 효율성은 음성 생성의 도메인 지식과 청각 심리학적 인지 특성을 활용함으로써 달성되었다. 제안된 모델은 최첨단 음성 향상 기준 성능을 달성하면서도 단일 스레드 노트북 CPU에서 실시간 요소(Real-time Factor) 0.19를 구현하였다. 본 프레임워크 및 사전 학습된 가중치는 오픈소스 라이선스 하에 공개되었다.