2달 전

RTFS-Net: 효율적인 오디오-비주얼 음성 분리를 위한 순환 시간-주파수 모델링

Pegg, Samuel ; Li, Kai ; Hu, Xiaolin
RTFS-Net: 효율적인 오디오-비주얼 음성 분리를 위한 순환 시간-주파수 모델링
초록

음성-영상 분리 방법은 다양한 모달을 통합하여 고품질의 분리된 음성을 생성함으로써, 음성 인식과 같은 후속 작업의 성능을 향상시키는 것을 목표로 합니다. 대부분의 기존 최신 연구(SOTA) 모델은 시간 영역에서 작동합니다. 그러나 이들의 음향 특징 모델링에 대한 지나치게 단순한 접근 방식은 종종 SOTA 성능을 달성하기 위해 더 크고 계산적으로 집약적인 모델이 필요하게 만듭니다. 본 논문에서는 새로운 시간-주파수 영역 음성-영상 분리 방법인 반복 시간-주파수 분리 네트워크(Recurrent Time-Frequency Separation Network, RTFS-Net)를 제시합니다. 이 방법은 Short-Time Fourier Transform(단시간 푸리에 변환)으로 얻어진 복소 시간-주파수 구간에 알고리즘을 적용합니다. 우리는 각 차원에서 다층 RNN을 사용하여 오디오의 시간과 주파수 차원을 독립적으로 모델링하고 포착합니다. 또한, 오디오와 비디오 정보를 효율적으로 통합하기 위한 고유한 주의력 기반 융합 기술과, 음향 특징의 내재적 스펙트럼 성질을 활용하여 더 명확한 분리를 제공하는 새로운 마스크 분리 접근법을 소개합니다. RTFS-Net은 추론 속도와 분리 품질 모두에서 이전 SOTA 방법보다 우수하며, 매개변수 수를 90% 줄이고 MACs(Multiply-Accumulate Operations)를 83% 감소시킵니다. 이는 모든 현대적인 시간 영역 대응 방안보다 우수한 첫 번째 시간-주파수 영역 음성-영상 분리 방법입니다.

RTFS-Net: 효율적인 오디오-비주얼 음성 분리를 위한 순환 시간-주파수 모델링 | 최신 연구 논문 | HyperAI초신경