3달 전

PrimeK-Net: 단일 채널 음성 증강을 위한 그룹 프라임-K 커널 컨볼루션 신경망을 통한 다중 스케일 스펙트럴 학습

Zizhen Lin, Junyu Wang, Ruili Li, Fei Shen, Xi Xuan
PrimeK-Net: 단일 채널 음성 증강을 위한 그룹 프라임-K 커널 컨볼루션 신경망을 통한 다중 스케일 스펙트럴 학습
초록

단채널 음성 강화는 손상된 신호로부터 정제된 음성을 추정하는 데 초점을 맞춘 도전적인 불안정 문제이다. 기존 연구들은 컨볼루션 신경망(CNN)과 트랜스포머를 결합함으로써 음성 강화 작업에서 경쟁력 있는 성능을 달성함을 보여왔다. 그러나 기존 프레임워크는 계산 효율성 측면에서 충분히 다루지 못했으며, 주파수 스펙트럼의 자연스러운 다중 규모 분포를 간과하고 있다. 또한 CNN이 음성 강화에서 가질 수 있는 잠재력은 아직 충분히 실현되지 못했다. 이러한 문제를 해결하기 위해 본 연구는 심층 분리 가능한 확장 밀도 블록(DSDDB)과 그룹 소수 커널 피드포워드 채널 주의(GPFCA) 모듈을 제안한다. 구체적으로 DSDDB는 기존 프레임워크의 인코더/디코더에 더 높은 파라미터 및 계산 효율성을 도입한다. GPFCA 모듈은 컨포머(Conformer)의 위치를 대체하여 선형 복잡도로 스펙트럼의 깊은 시계열 및 주파수 특징을 추출한다. GPFCA는 제안한 그룹 소수 커널 피드포워드 네트워크(GPFN)를 활용하여 다중 해상도의 장거리, 중거리, 단거리 수용 필드를 통합하며, 소수의 성질을 이용해 주기적 겹침 효과를 방지한다. 실험 결과, 본 연구에서 제안한 PrimeK-Net은 VoiceBank+Demand 데이터셋에서 최첨단(SOTA) 성능을 달성하여 단지 141만 개의 파라미터로 PESQ 점수 3.61을 기록하였다.