
딥 신경망은 음성 분리 작업에서 놀라운 전망을 보여주고 있다. 그러나 실세계 응용에서 낮은 모델 복잡도를 유지하면서도 우수한 성능을 달성하는 것은 여전히 도전 과제이다. 본 논문에서는 뇌의 상향식 주의(upper-level attention)를 모방하여 생물학적으로 영감을 받은 효율적인 인코더-디코더 아키텍처인 TDANet을 제안한다. 이 구조는 성능을 희생시키지 않고 모델 복잡도를 감소시킨다. TDANet의 상향식 주의는 전역 주의(Global Attention, GA) 모듈과 연속적인 국소 주의(Local Attention, LA) 층을 통해 추출된다. GA 모듈은 다중 스케일 음성 특징을 입력으로 받아 전역 주의 신호를 추출하며, 이를 직접적인 상향식 연결을 통해 다양한 스케일의 특징을 조절한다. LA 층은 인접한 층의 특징을 입력으로 받아 국소 주의 신호를 추출하고, 이를 상향식 방식으로 수평적 입력을 조절하는 데 사용한다. 세 가지 벤치마크 데이터셋에서 TDANet은 이전 최고 성능(SOTA) 모델들과 경쟁 가능한 분리 성능을 지속적으로 달성하였으며, 더 높은 효율성을 보였다. 구체적으로, TDANet의 곱셈-누적 연산(MACs)은 이전 SOTA 모델 중 하나인 Sepformer의 5%에 불과하며, CPU 추론 시간은 Sepformer의 10%에 그친다. 또한, 대규모 버전의 TDANet은 세 가지 데이터셋에서 SOTA 성능을 달성하였으며, MACs는 여전히 Sepformer의 10%에 불과하고 CPU 추론 시간은 24%에 그쳤다.