2달 전
TF-Locoformer: Convolution을 통한 로컬 모델링을 사용한 음성 분리 및 향상용 트랜스포머
Kohei Saijo; Gordon Wichern; François G. Germain; Zexu Pan; Jonathan Le Roux

초록
시간-주파수(TF) 영역의 이중 경로 모델은 고충실도 음성 분리를 달성합니다. 일부 이전 최고 수준(SoTA) 모델들은 순환 신경망(RNNs)에 의존하지만, 이러한 의존성은 트랜스포머 블록의 병렬 처리 능력, 확장성, 그리고 유연성을 갖지 못하게 합니다. 순수한 트랜스포머 기반 아키텍처가 다른 분야에서 광범위한 성공을 거두어 온 점을 감안할 때, 본 연구에서는 TF 영역의 이중 경로 모델에서 RNN을 제거하면서 SoTA 성능을 유지하는 데 초점을 맞추었습니다. 본 연구는 LOcal-modeling by COnvolution(LOCO) 방식을 사용하는 트랜스포머 기반 모델인 TF-LoCoformer를 제시합니다. 이 모델은 로컬 정보를 포착하기 위해 선형 계층이 아닌 합성곱 계층을 사용하는 피드포워드 네트워크(FFNs)를 활용하며, 자기 주의 메커니즘이 전역 패턴을 포착하는 데 집중할 수 있도록 합니다. 또한 자기 주의 메커니즘 앞뒤로 두 개의 FFN을 배치하여 로컬 모델링 능력을 향상시키고 있습니다. 우리는 또한 TF 영역의 이중 경로 모델을 위한 새로운 정규화 방법을 소개합니다. 분리 및 강화 데이터셋에 대한 실험 결과, 제안된 모델은 RNN이 없는 구조에서도 여러 벤치마크에서 SoTA를 만족하거나 초과함을 보여주었습니다.