MossFormer: 결합된 단일 헤드 트랜스포머와 컨볼루션 보강된 공동 자체 주의를 활용한 단음성 음성 분리의 성능 한계를 극복한다

기존의 트랜스포머 기반 모델들은 단음원 음성 분리 작업에서 상당한 성능 향상을 이끌어냈다. 그러나 최근 제안된 이론적 상한선(upper bound)과 비교할 때 여전히 성능 격차가 존재한다. 현재의 이중경로 트랜스포머 모델의 주요 한계는 장거리 원소 간 상호작용과 국소적 특징 패턴을 효율적으로 모델링하지 못한다는 점이다. 본 연구에서는 이러한 한계를 극복하기 위해, 컨볼루션 증강형 공동 자기주의(self-attention)를 갖춘 게이팅형 싱글헤드 트랜스포머 아키텍처를 제안하며, 이를 \textit{MossFormer}(\textit{Mo}naural \textit{s}peech \textit{s}eparation Trans\textit{Former})라 명명한다. 이중경로 아키텍처에서 청크 간 간접적인 원소 상호작용을 효과적으로 해결하기 위해, MossFormer은 국소 청크에 대해 전체 계산을 수행하는 자기주의와 전체 시퀀스에 대해 선형화된 저비용 자기주의를 동시에 수행하는 공동형 국소-전역 자기주의 아키텍처를 도입한다. 이러한 공동 자기주의 구조는 MossFormer이 전체 시퀀스의 원소 상호작용을 직접적으로 모델링할 수 있도록 한다. 또한, 단순화된 싱글헤드 자기주의와 함께 강력한 주의 기반 게이팅 메커니즘을 도입하여, 장거리 상호작용을 효과적으로 학습한다. 더불어, 위치 기반 국소 패턴 모델링을 위해 컨볼루션을 추가로 적용함으로써, 국소적 특징을 더욱 정교하게 포착한다. 그 결과, MossFormer은 기존 모델들을 크게 능가하며 WSJ0-2/3mix 및 WHAM!/WHAMR! 벤치마크에서 최신 기술 수준(SOTA)의 성능을 달성한다. 특히 WSJ0-3mix에서 SI-SDRi 상한선 21.2 dB를 달성하였으며, WSJ0-2mix에서는 23.1 dB의 상한선에 단 0.3 dB 미달하는 성능을 기록하여 매우 높은 수준의 성능을 입증하였다.