17일 전

SCP-GAN: 음성 증강 작업에서 훈련 일관성 보존 메트릭 GAN을 위한 자기 수정 판별자 최적화

Vasily Zadorozhnyy, Qiang Ye, Kazuhito Koishida
SCP-GAN: 음성 증강 작업에서 훈련 일관성 보존 메트릭 GAN을 위한 자기 수정 판별자 최적화
초록

최근 몇 년 동안 생성적 적대 신경망(GAN)은 음성 증강(SE) 작업에서 상당한 성과를 거두었다. 그러나 GAN은 학습이 어려운 편이다. 본 연구에서는 대부분의 GAN 기반 SE 모델에 적용 가능한 GAN 학습 방식의 여러 개선점을 제안한다. 먼저, 푸리에 변환과 역 푸리에 변환에 의해 발생하는 시간 영역 및 시간-주파수 영역에서의 일관성 부족을 해결하기 위해 일관성 손실 함수를 도입한다. 또한, SE 작업에서 GAN의 판별자 학습 시 '해로운' 학습 방향을 피할 수 있도록 자기 수정형 최적화 기법을 제안한다. 제안한 방법들을 여러 최신 GAN 기반 SE 모델에 적용하여 테스트한 결과, 일관된 성능 향상이 확인되었으며, 특히 Voice Bank+DEMAND 데이터셋에서 새로운 최고 성능 기록을 달성하였다.