17일 전

신경 음성 데이터 처리를 위한 서스펙트럴 정규화

Simyung Chang, Hyoungwoo Park, Janghoon Cho, Hyunsin Park, Sungrack Yun, Kyuwoong Hwang
신경 음성 데이터 처리를 위한 서스펙트럴 정규화
초록

컨볼루셔널 신경망은 다양한 머신러닝 분야에서 널리 사용된다. 이미지 처리 분야에서는 입력의 모든 공간 차원에 2차원 컨볼루션을 적용함으로써 특징을 추출할 수 있다. 그러나 음성 데이터의 경우 멜스펙트로그램(Mel-Spectrogram)과 같은 주파수 도메인 입력은 주파수 차원에서 특별하고 독특한 특성을 갖는다. 따라서 주파수 차원을 별도로 다룰 수 있는 방법이 필요하다. 본 연구에서는 입력의 주파수 차원을 여러 그룹(서브밴드)으로 나누어 각 그룹별로 별도의 정규화를 수행하는 서브스펙트럴 정규화(SubSpectral Normalization, SSN)를 제안한다. SSN은 각 그룹에 적용 가능한 애피니 변환(affine transformation)도 포함하고 있다. 제안한 방법은 네트워크가 주파수 인지 특성을 학습하는 과정에서 주파수 간의 왜곡(inter-frequency deflection)을 제거한다. 음성 데이터를 활용한 실험 결과, SSN이 네트워크 성능을 효율적으로 향상시킬 수 있음을 관찰할 수 있었다.

신경 음성 데이터 처리를 위한 서스펙트럴 정규화 | 최신 연구 논문 | HyperAI초신경