15일 전
계산 및 메모리 효율적인 유니버설 사운드 소스 분리
Efthymios Tzinis, Zhepei Wang, Xilin Jiang, Paris Smaragdis

초록
최근 딥러닝을 주도로 한 음성 소스 분리 기술의 발전으로 인해, 다양한 신경망 모델이 이 기본적인 추정 문제에 대해 강건한 해결책을 제공할 수 있게 되었다. 본 연구에서는 실제 적용 시나리오에서 신경망의 활용을 방해하는 여러 계산적 측면을 고려하면서, 일반 목적의 음성 소스 분리에 적합한 효율적인 신경망 아키텍처의 가족을 제안한다. 이 컨볼루션 네트워크의 핵심 구조는 다중 해상도 특징의 연속적인 다운샘플링 및 리샘플링을 수행하는 SuDoRM-RF(Successive Downsampling and Resampling of Multi-Resolution Features)와, 이를 간단한 1차원 컨볼루션을 통해 집계하는 방식이다. 이러한 메커니즘은 다양한 설정에서 소스 수가 변동하는 상황과 제한된 계산 자원(예: 부동소수점 연산 횟수, 메모리 사용량, 파라미터 수, 지연 시간 등) 환경에서도 고정밀도 신호 분리를 가능하게 한다. 실험 결과, SuDoRM-RF 모델은 여러 최첨단 기준 모델과 비교해 유사하거나 오히려 뛰어난 성능을 보였으며, 이들 모델보다 훨씬 높은 계산 자원 소비를 요구하지 않는다. 또한 SuDoRM-RF의 인과적 변형은 노트북 장치에서 실시간으로 약 10dB 수준의 스케일 불변 신호-왜곡 비율 향상(SI-SDRi)을 달성하며, 실시간 기준보다 최대 20배 빠른 속도로 동작할 수 있음을 확인하였다.