15일 전

TDFNet: 상향식 융합을 갖춘 효율적인 오디오-비전 음성 분리 모델

Samuel Pegg, Kai Li, Xiaolin Hu
TDFNet: 상향식 융합을 갖춘 효율적인 오디오-비전 음성 분리 모델
초록

음성-시각적 음성 분리 기술은 최근 음성 인식, 음성 구분(다이어라이제이션), 장면 분석 및 보조 기술 등 다양한 분야에서의 잠재적 응용 가능성으로 인해 주목받고 있다. 저지연 응용을 위한 가벼운 음성-시각적 음성 분리 네트워크 설계는 매우 중요하지만, 기존의 방법들은 보다 우수한 분리 성능을 달성하기 위해 높은 계산 비용과 더 많은 파라미터를 요구하는 경향이 있다. 본 논문에서는 음성-시각적 음성 분리 분야의 최신 기준(SOTA, State-of-the-Art) 모델인 Top-Down-Fusion Net(TDFNet)을 제안한다. TDFNet은 음성만을 다루는 음성 분리 방법인 TDANet의 아키텍처를 기반으로 하며, TDFNet 내의 청각 및 시각 네트워크에 대한 구조적 기반을 제공한다. 이로 인해 파라미터 수가 적은 효율적인 모델 구조를 구현할 수 있다. LRS2-2Mix 데이터셋에서 TDFNet은 이전 SOTA 모델인 CTCNet 대비 모든 성능 지표에서 최대 10%의 성능 향상을 달성하였다. 특히, 이 성과는 CTCNet에 비해 파라미터 수가 적고, 곱셈-합산 연산(MACs)도 단 28%만 사용함으로써 달성되었다. 요약하자면, 본 연구는 음성-시각 도메인 내 음성 분리 과제에 대해 매우 효과적이고 효율적인 해결책을 제시하며, 시각 정보를 최적화하여 활용하는 데 있어 중요한 진전을 이뤘다.

TDFNet: 상향식 융합을 갖춘 효율적인 오디오-비전 음성 분리 모델 | 최신 연구 논문 | HyperAI초신경