15일 전

이중 단계 음원 분리: 학습된 잠재 타겟을 통한 훈련

Efthymios Tzinis, Shrikant Venkataramani, Zhepei Wang, Cem Subakan, Paris Smaragdis
이중 단계 음원 분리: 학습된 잠재 타겟을 통한 훈련
초록

본 논문에서는 심층 신경망을 통한 소스 분리에 대한 두 단계 학습 절차를 제안한다. 첫 번째 단계에서는 오라클을 사용한 마스킹 기반 분리 성능이 최적화되는 잠재 공간으로의 변환(그리고 그 역변환)을 학습한다. 두 번째 단계에서는 이전에 학습된 잠재 공간에서 동작하는 분리 모듈을 훈련한다. 이를 위해 우리는 잠재 공간에서 작동하는 척도 불변 신호-왜곡 비율(SI-SDR) 손실 함수를 활용하며, 이 손실 함수가 시간 영역에서의 SI-SDR에 하한(lower-bound)을 제공함을 증명한다. 다양한 음성 분리 실험을 수행한 결과, 변환과 분리 모듈을 동시에 학습하는 기존 시스템에 비해 제안하는 방법이 더 우수한 성능을 달성함을 확인할 수 있었다. 제안하는 방법론은 심층 신경망 기반의 엔드투엔드 분리 시스템 중 대규모 클래스에 일반적으로 적용 가능한 유연성을 지닌다.

이중 단계 음원 분리: 학습된 잠재 타겟을 통한 훈련 | 최신 연구 논문 | HyperAI초신경