17일 전
다중 뷰 어텐션 전이를 통한 효율적인 음성 강화
Wooseok Shin, Hyun Joon Park, Jin Sob Kim, Byung Hoon Lee, Sung Won Han

초록
최근 딥러닝 모델들은 음성 증강에서 높은 성능을 달성하고 있으나, 성능 저하 없이 빠르고 저복잡도의 모델을 얻는 것은 여전히 도전 과제이다. 기존의 음성 증강 분야에서의 지식 증류 연구들은 출력 증류 방식이 일부 측면에서 음성 증강 작업에 적합하지 않아 이 문제를 해결하지 못했다. 본 연구에서는 시간 영역에서 효율적인 음성 증강 모델을 얻기 위해 특징 기반 증류 방법인 다중 시점 주의 전달(Multi-View Attention Transfer, MV-AT)을 제안한다. 다중 시점 특징 추출 모델을 기반으로, MV-AT는 추가적인 파라미터 없이 교사 네트워크의 다중 시점 지식을 학생 네트워크로 전달한다. 실험 결과, 제안한 방법은 발렌티니(Valentini) 및 딥 노이즈 억제(DNS) 데이터셋에서 다양한 크기의 학생 모델에 대해 일관되게 성능을 향상시켰다. 효율적인 배포를 위한 경량 모델인 MANNER-S-8.1GF는 본 연구에서 제안한 방법을 적용하여 기준 모델과 유사한 성능을 유지하면서 각각 15.4배, 4.71배의 파라미터 수와 부동소수점 연산(FLOPs)을 줄이는 데 성공했다.