17일 전
자기 주의(M self-attention) 메커니즘을 활용한 음성 분리 탐구
Cem Subakan, Mirco Ravanelli, Samuele Cornell, Francois Grondin, Mirko Bronzi

초록
Transformers는 딥러닝 분야에서 놀라운 성과를 이끌어냈다. 병렬 처리의 장점을 활용하면서도 많은 작업에서 순환형 및 합성곱 모델보다 우수한 성능을 보이고 있다. 최근 우리는 WSJ0-2/3 Mix 데이터셋을 기반으로 음성 분리에서 최신 기준 성능을 달성한 SepFormer을 제안한 바 있다. 본 논문에서는 음성 분리 분야에서 Transformers에 대해 심층적으로 연구한다. 특히 이전에 제안한 SepFormer에 대한 연구 결과를 보다 도전적인 노이지 및 노이지-리버버런트 데이터셋, 즉 LibriMix, WHAM!, WHAMR!에 대해 확장하여 제시한다. 더불어 모델을 음성 강화 작업에까지 확장하고, 노이즈 제거 및 리버버레이션 제거 작업에 대한 실험적 증거를 제시한다. 마지막으로, 음성 분리 분야에서 처음으로 효율적인 자기 주의 메커니즘(Linformers, Lonformers, ReFormers)을 적용해 보았으며, 이러한 메커니즘이 메모리 요구량을 크게 줄임을 확인했다. 예를 들어, Reformer 기반의 주의 메커니즘이 WSJ0-2Mix 데이터셋에서 인기 있는 Conv-TasNet 모델보다 우수한 성능을 보이며, 추론 속도는 더 빠르고 메모리 소비량은 유사한 수준임을 보여주었다.