2달 전

Schrödinger Bridge를 이용한 생성적 음성 향상

Ante Jukić; Roman Korostik; Jagadeesh Balam; Boris Ginsburg
Schrödinger Bridge를 이용한 생성적 음성 향상
초록

본 논문은 Schrödinger 다리(SB)를 기반으로 하는 생성적 음성 향상 모델을 제안합니다. 제안된 모델은 청정 음성 분포와 관찰된 노이즈가 포함된 음성 분포 사이의 데이터-데이터 프로세스를 공식화하기 위해 처리 가능한 SB를 사용합니다. 이 모델은 청정 복소수 음성 계수를 복원하는 것을 목표로 데이터 예측 손실로 학습되며, 보조 시간 영역 손실이 모델의 학습 개선에 사용됩니다. 제안된 SB 기반 모델의 효과는 두 가지 다른 음성 향상 작업에서 평가되었습니다: 음성 잡음 제거와 음향 반사 제거입니다. 실험 결과는 제안된 SB 기반 모델이 음질 지표와 자동 연속 인식(ASR) 성능 측면에서 확산 기반 모델보다 우수함을 입증하였습니다. 예를 들어, 최고 베이스라인 모델과 비교하여 잡음 제거에서는 상대적인 단어 오류율이 20% 감소하고, 음향 반사 제거에서는 6% 감소하였습니다. 또한, 제안된 모델은 동일한 샘플링 단계 수에서 더 나은 품질을 달성하며, 계산 비용도 줄이는 데 있어 효율성이 개선됨을 보여주었습니다.