2달 전
MMDenseLSTM: 오디오 소스 분리에 대한 효율적인 컨볼루션 신경망과 순환 신경망의 조합
Naoya Takahashi; Nabarun Goswami; Yuki Mitsufuji

초록
깊은 신경망은 오디오 소스 분리(ASS)를 위한 필수적인 기술이 되었습니다. 최근에 MMDenseNet이라는 CNN 아키텍처의 변형이 ASS 문제, 즉 소스 진폭 추정 문제를 해결하는 데 성공적으로 활용되었다고 보고되었으며, DSD100 데이터셋에서 최상의 결과를 얻었습니다. MMDenseNet을 더욱 개선하기 위해 본 연구에서는 여러 스케일에서 장단기 메모리(LSTM)와 스킵 연결을 통합한 새로운 아키텍처를 제안합니다. 이는 오디오 컨텍스트 내의 장기 구조를 효율적으로 모델링하기 위함입니다. 실험 결과, 제안된 방법이 MMDenseNet, LSTM 및 두 네트워크의 혼합보다 우수한 성능을 보임을 확인할 수 있었습니다. 제안된 모델의 매개변수 수와 처리 시간은 단순 혼합보다 크게 적습니다. 또한, 제안된 방법은 이상적인 이진 마스크를 사용한 노래 목소리 분리 작업에서 더 나은 결과를 제공하였습니다.