13일 전

LLM 기반의 DNN 대비 생물학적으로 영감을 받은 단일 귀 음성 분리 시스템에서 조화성(Harmonicity)이 핵심적인 역할을 한다

Rahil Parikh, Ilya Kavalerov, Carol Espy-Wilson, Shihab Shamma
LLM 기반의 DNN 대비 생물학적으로 영감을 받은 단일 귀 음성 분리 시스템에서 조화성(Harmonicity)이 핵심적인 역할을 한다
초록

최근 딥러닝 기술의 발전으로 음성 분리 모델에 큰 성과가 나타났다. 이러한 모델들의 성공과 점점 확대되는 적용 가능성을 고려할 때, 그들이 음성 분리를 수행하기 위해 학습하는 근본적인 원리에 대한 분석은 여전히 부족한 실정이다. 본 연구에서는 최신의 딥뉴럴넷(DNN) 기반 모델인 Conv-TasNet과 DPT-Net에서 조화성(harmonicity)이 차지하는 역할을 분석한다. 자연스러운 음성 혼합물과 약간 변형된 비조화성 음성 혼합물(조화성 성분이 약간 주파수 제트(jitter)되는 형태)을 대상으로 모델의 성능을 평가하였다. 그 결과, 하나의 음성 소스만 약간의 조화성 제트를 받더라도 성능이 크게 저하됨을 확인하였다. 예를 들어, 사람의 귀로는 거의 인지되지 않는 3%의 조화성 제트만으로도 Conv-TasNet의 성능은 15.4 dB에서 0.70 dB로 급격히 저하되었다. 비조화성 음성을 활용한 모델 훈련은 이러한 민감도를 개선하지 못하고 오히려 자연스러운 음성 혼합물에 대한 성능을 더 악화시켰으며, 이는 비조화성이 DNN 모델에 대해 강력한 적대적 요인임을 시사한다. 더 나아가 추가적인 분석을 통해 DNN 알고리즘은 주로 시간적 신호 측정(timing cues)에 의존하고 조화성에 크게 의존하지 않는 생물학적으로 영감을 받은 알고리즘과는 크게 다른 동작 방식을 보임을 확인하였다.

LLM 기반의 DNN 대비 생물학적으로 영감을 받은 단일 귀 음성 분리 시스템에서 조화성(Harmonicity)이 핵심적인 역할을 한다 | 최신 연구 논문 | HyperAI초신경