3달 전

PoCoNet: 주파수-위치 임베딩, 반감독 대화형 데이터, 편향 손실을 통한 개선된 음성 증강

Umut Isik, Ritwik Giri, Neerad Phansalkar, Jean-Marc Valin, Karim Helwani, Arvindh Krishnaswamy
PoCoNet: 주파수-위치 임베딩, 반감독 대화형 데이터, 편향 손실을 통한 개선된 음성 증강
초록

신경망 응용 분야는 일반적으로 크기가 큰 모델에서 더 큰 이점을 얻지만, 현재의 음성 강화 모델의 경우 더 큰 규모의 네트워크는 훈련 데이터에서 경험한 범위를 벗어난 다양한 실세계 사용 사례에 대해 오히려 낮은 견고성(로버스트성)을 보이는 경향이 있다. 본 연구에서는 음성 강화를 위한 보다 우수한 대규모 신경망을 구현하기 위해 여러 혁신적인 기법을 제안한다. 제안된 새로운 PoCoNet 아키텍처는 주파수 위치 임베딩(frequency-positional embeddings)을 활용함으로써 초기 레이어에서 주파수에 따라 달라지는 특징을 보다 효율적으로 학습할 수 있다. 반감독 학습 방식을 통해 노이즈가 포함된 데이터셋을 사전에 강화함으로써 대화형 훈련 데이터의 양을 증가시켜 실제 녹음 데이터에 대한 성능을 향상시킨다. 또한 음성 품질을 보존하는 데 중점을 둔 새로운 손실 함수(loss function)는 최적화 과정이 인간의 음성 품질 인식과 더 잘 일치하도록 도와준다. 제안된 기법들의 효과는 아블레이션 실험과 객관적 평가 지표, 그리고 사용자 인식 평가를 통해 입증되었다.