17일 전

MetricGAN-OKD: 음성 증강을 위한 온라인 지식 증류를 통한 MetricGAN의 다중 지표 최적화

{Sung Won Han, Hyun Joon Park, Jin Sob Kim, Byung Hoon Lee, WooSeok Shin}
MetricGAN-OKD: 음성 증강을 위한 온라인 지식 증류를 통한 MetricGAN의 다중 지표 최적화
초록

음성 강화 분야에서 MetricGAN 기반 접근법은 비미분 가능 평가 지표를 목적 함수로 사용함으로써 $L_p$ 손실과 평가 지표 간의 불일치를 줄이는 데 기여한다. 그러나 다수의 평가 지표를 동시에 최적화하는 것은 기울기 방향의 혼란 문제로 인해 여전히 도전 과제이다. 본 논문에서는 온라인 지식 전이(online knowledge distillation)를 활용한 효과적인 다중 지표 최적화 방법인 MetricGAN-OKD를 제안한다. MetricGAN-OKD는 하나의 생성자와 하나의 목표 지표 간의 일대일 대응 관계를 갖는 복수의 생성자와 목표 지표로 구성되며, 각 생성자는 단일 지표에 대해 신뢰성 있게 학습할 수 있도록 하면서, 다른 생성자를 모방함으로써 다른 지표에 대한 성능도 향상시킨다. 음성 강화 및 청취 강화 작업에 대한 실험 결과는 제안된 방법이 기존의 다중 지표 최적화 방법에 비해 다수의 지표에서 유의미한 성능 향상을 보였음을 보여준다. 또한, MetricGAN-OKD의 우수한 성능은 네트워크의 일반화 능력과 지표 간의 상관관계 측면에서 설명할 수 있다.