13일 전
LLM 기반의 DNN 대비 생물학적으로 영감을 받은 단일 귀 음성 분리 시스템에서 조화성(Harmonicity)이 핵심적인 역할을 한다
Rahil Parikh, Ilya Kavalerov, Carol Espy-Wilson, Shihab Shamma

초록
최근 딥러닝 기술의 발전으로 음성 분리 모델에 큰 성과가 나타났다. 이러한 모델들의 성공과 점점 확대되는 적용 가능성을 고려할 때, 그들이 음성 분리를 수행하기 위해 학습하는 근본적인 원리에 대한 분석은 여전히 부족한 실정이다. 본 연구에서는 최신의 딥뉴럴넷(DNN) 기반 모델인 Conv-TasNet과 DPT-Net에서 조화성(harmonicity)이 차지하는 역할을 분석한다. 자연스러운 음성 혼합물과 약간 변형된 비조화성 음성 혼합물(조화성 성분이 약간 주파수 제트(jitter)되는 형태)을 대상으로 모델의 성능을 평가하였다. 그 결과, 하나의 음성 소스만 약간의 조화성 제트를 받더라도 성능이 크게 저하됨을 확인하였다. 예를 들어, 사람의 귀로는 거의 인지되지 않는 3%의 조화성 제트만으로도 Conv-TasNet의 성능은 15.4 dB에서 0.70 dB로 급격히 저하되었다. 비조화성 음성을 활용한 모델 훈련은 이러한 민감도를 개선하지 못하고 오히려 자연스러운 음성 혼합물에 대한 성능을 더 악화시켰으며, 이는 비조화성이 DNN 모델에 대해 강력한 적대적 요인임을 시사한다. 더 나아가 추가적인 분석을 통해 DNN 알고리즘은 주로 시간적 신호 측정(timing cues)에 의존하고 조화성에 크게 의존하지 않는 생물학적으로 영감을 받은 알고리즘과는 크게 다른 동작 방식을 보임을 확인하였다.