4달 전

고품질 음성 향상에 대한 크기 및 위상 스펙트럼의 병렬 명시적 추정

Lu, Ye-Xin ; Ai, Yang ; Ling, Zhen-Hua
고품질 음성 향상에 대한 크기 및 위상 스펙트럼의 병렬 명시적 추정
초록

위상 정보는 음성 인지 품질과 이해도에 큰 영향을 미칩니다. 그러나 기존의 음성 향상 방법들은 위상의 비구조적 특성과 래핑 특성으로 인해 명시적인 위상 추정에서 제한에 직면하여, 이로 인해 향상된 음성 품질의 병목 현상을 초래합니다. 이러한 문제를 해결하기 위해 본 논문에서는 MP-SENet이라는 새로운 음성 향상 네트워크를 제안합니다. 이 네트워크는 입력으로 받은 왜곡된 크기와 위상 스펙트럼을 시간-주파수 표현으로 인코딩하는 인코더와, 이를 시간-주파수 Transformer에 전달하여 시간과 주파수 의존성을 교대로 포착하는 구조를 포함하고 있습니다. 디코더는 크기 마스크 디코더와 위상 디코더로 구성되며, 각각 크기 마스킹 아키텍처와 위상 병렬 추정 아키텍처를 통합하여 직접적으로 크기 스펙트럼과 래핑된 위상 스펙트럼을 향상시킵니다. 다중 수준 손실 함수가 크기 스펙트럼, 래핑된 위상 스펙트럼, 그리고 단시간 복소 스펙트럼에 명시적으로 정의되어 MP-SENet 모델을 공동으로 학습시키는데 사용됩니다. 또한 이러한 손실들과 인간 청각 지각 사이의 불완전한 상관관계를 보완하기 위해 메트릭 판별기가 추가로 활용됩니다. 실험 결과는 제안된 MP-SENet이 노이즈 제거, 반향 제거, 대역폭 확장 등 여러 음성 향상 작업에서 최고 수준의 성능을 달성함을 보여줍니다. 기존의 위상 인식 음성 향상 방법들에 비해 명시적인 위상 추정을 통해 크기와 위상 간의 보정 효과를 더욱 완화하며, 이로써 향상된 음성의 감지 품질을 높입니다.