
초록
딥러닝 기반의 음성 향상 알고리즘은 음성의 이해 가능성과 주관적 품질 측면에서 크게 향상되었다. 많은 기법들은 혼합 신호의 진폭 스펙트럼을 강화하고, 복원 과정에서 혼합 신호의 위상을 사용하는 방식을 채택하고 있다. 그러나 정화된 신호의 위상은 매우 중요하지만 예측하기 어렵기 때문에, 이러한 방법들의 성능은 한계에 부딪힌다. 일부 연구자들은 위상 스펙트럼을 직접 또는 간접적으로 추정하려는 시도를 했지만, 그 성능은 만족스럽지 못했다. 최근에는 복소수 값 모델을 도입한 연구들이 등장하여, 예를 들어 심층 복소수 컨볼루션 순환 네트워크(DCCRN)와 같은 최첨단 성능을 달성하였다. 그러나 이러한 모델의 계산 복잡도가 매우 크다는 문제가 있다. 복잡도를 줄이고 성능을 추가로 향상시키기 위해, 본 논문에서는 입력으로 이산 코사인 변환(Discrete Cosine Transform, DCT)을 사용하는 새로운 방법을 제안하며, 이를 심층 코사인 변환 컨볼루션 순환 네트워크(DCTCRN)라 명명한다. 실험 결과, DCTCRN은 객관적 및 주관적 지표 모두에서 최첨단 성능을 달성하였다. 노이즈가 섞인 신호 대비 제안된 모델을 적용한 결과, 평균 관측 점수(MOS)는 0.46 점(2.86 → 3.32) 상승하였으며, 파라미터 수는 단지 286만 개에 불과하였다.