2달 전

CMGAN: Conformer 기반 단일 채널 음성 향상용 Metric-GAN

Abdulatif, Sherif ; Cao, Ruizhe ; Yang, Bin
CMGAN: Conformer 기반 단일 채널 음성 향상용 Metric-GAN
초록

본 연구에서는 시간-주파수(TF) 영역에서 음성 향상(SE)을 위한 컨포머 기반 메트릭 생성적 적대 네트워크(CMGAN) 모델을 더욱 발전시켰습니다. 본 논문은 이전 연구를 바탕으로 하되, 모델 입력과 구조 설계 선택에 대한 광범위한 아블레이션 연구를 수행하여 보다 깊이 있게 다루고 있습니다. 우리는 모델의 일반화 능력을 미지의 노이즈 유형과 왜곡에 대해 철저히 테스트하였습니다. DNS-MOS 측정 및 청취 테스트를 통해 우리의 주장을 강화하였습니다. 단순히 음성 제노이징 작업에만 집중하지 않고, 이 연구를 더리버베레이션 및 슈퍼 리졸루션 작업까지 확장하였습니다. 이를 위해 다양한 구조적 변경, 특히 메트릭 판별기 점수와 마스킹 기법을 탐구해야 하였습니다. 특히 복잡한 TF 영역 슈퍼 리졸루션을 시도한 초기 연구 중 하나라는 점을 강조할 필요가 있습니다. 우리의 결과는 CMGAN이 세 가지 주요 음성 향상 작업(제노이징, 더리버베레이션, 슈퍼 리졸루션)에서 기존 최신 방법론들을 능가한다는 것을 보여줍니다. 예를 들어, Voice Bank+DEMAND 데이터셋을 사용한 제노이징 작업에서 CMGAN은 이전 모델들의 성능을 크게 초월하여 PESQ 점수 3.41과 SSNR 11.10 dB를 달성하였습니다. 오디오 샘플과 CMGAN 구현은 온라인에서 확인할 수 있습니다.

CMGAN: Conformer 기반 단일 채널 음성 향상용 Metric-GAN | 최신 연구 논문 | HyperAI초신경