15일 전

샌드글라스엣: 시간 영역 음성 분리 위한 경량 다중 군집도 자기주의 네트워크

Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu
샌드글라스엣: 시간 영역 음성 분리 위한 경량 다중 군집도 자기주의 네트워크
초록

단일 채널 음성 분리(SS) 모델 중 주요 모델 중 하나는 TasNet 기반의 이중 경로 세그멘테이션 기법을 사용하며, 이 기법에서는 모든 계층에서 각 세그먼트의 크기가 일정하게 유지된다. 반면에, 본 연구의 핵심 발견은 다중 그레인룰러 특징이 문맥 모델링과 계산 효율성 향상에 필수적이라는 점이다. 우리는 새로운 사다리꼴 형태(사막 모양)의 자기주의(self-attentive) 네트워크인 Sandglasset을 제안한다. 이 모델은 훨씬 더 작은 모델 크기와 계산 비용으로 최신 기술(SOTA) 수준의 SS 성능을 달성한다. Sandglasset 내 각 블록을 따라 전방으로 진행할 때, 특징의 시간적 그레인룰러는 점차 거칠어지며 네트워크 블록의 절반 지점에 도달한 후 다시 원시 신호 수준에 가까워지도록 점차 세밀해진다. 또한, 동일한 그레인룰러를 가진 특징 간의 잔차 연결(residual connection)이 볼트넥(bottleneck) 계층을 통과한 후 정보를 유지하는 데 핵심적인 역할을 함을 밝혀냈다. 실험 결과, 단지 230만 개의 파라미터를 가진 본 모델이 WSJ0-2mix 및 WSJ0-3mix라는 두 가지 벤치마크 SS 데이터셋에서 최고 성능을 기록하였으며, 기존 SOTA 결과와 비교해 SI-SNRi 점수를 각각 0.8 dB와 2.4 dB 향상시켰다.

샌드글라스엣: 시간 영역 음성 분리 위한 경량 다중 군집도 자기주의 네트워크 | 최신 연구 논문 | HyperAI초신경