2달 전

DeFT-AN: 다중 채널 음성 향상용 밀집 주파수-시간 주의 네트워크

Dongheon Lee; Jung-Woo Choi
DeFT-AN: 다중 채널 음성 향상용 밀집 주파수-시간 주의 네트워크
초록

본 연구에서는 다중 채널 음성 향상에 사용되는 밀도 높은 주파수-시간 주의 네트워크(DeFT-AN)를 제안합니다. DeFT-AN은 입력 신호의 단시간 푸리에 변환(STFT)에 포함된 잡음과 공명을 억제하기 위해 복소 스펙트럼 마스킹 패턴을 예측하는 마스크 추정 네트워크입니다. 제안된 마스크 추정 네트워크는 공간, 스펙트럼, 시간 차원에서 정보를 집계하기 위해 세 가지 유형의 블록을 통합합니다. 이 네트워크는 수정된 피드포워드 네트워크를 사용한 스펙트럼 트랜스포머와 순차적으로 확장된 합성곱을 사용한 시간적 컨포머를 활용합니다. 음성 신호의 세 가지 특성을 각각 처리하는 밀도 높은 블록과 트랜스포머의 사용은 잡음과 공명이 있는 환경에서 보다 포괄적인 향상을 가능하게 합니다. DeFT-AN의 우수한 성능은 두 개의 인기 있는 잡음 및 공명 데이터셋을 기반으로 한 다양한 음성 품질 및 이해도 지표를 통해 최신 다중 채널 모델보다 뛰어남을 입증하였습니다.

DeFT-AN: 다중 채널 음성 향상용 밀집 주파수-시간 주의 네트워크 | 최신 연구 논문 | HyperAI초신경