17일 전

다중채널 음성 향상용 인터채널 Conv-TasNet

Dongheon Lee, Seongrae Kim, Jung-Woo Choi
다중채널 음성 향상용 인터채널 Conv-TasNet
초록

다중채널 환경에서의 음성 강화는 여러 마이크 신호에 내재된 공간 정보를 활용함으로써 실현되어 왔다. 또한 최근 딥 뉴럴 네트워크(DNN) 기술이 이 분야에서 크게 발전하였으나, 공간 정보와 채널 간 관계를 효율적으로 활용할 수 있는 다중채널 네트워크 구조에 대한 연구는 여전히 초기 단계에 머물고 있다. 본 연구에서는 DNN의 각 계층에서 채널 간 관계를 효과적으로 활용할 수 있도록 설계된 엔드투엔드 시간영역 음성 강화 네트워크를 제안한다. 제안하는 기법은 원래 음성 분리 작업을 위해 개발된 완전 컨볼루션 시간영역 오디오 분리 네트워크(Conv-TasNet)를 기반으로 한다. 이를 바탕으로 다중채널 입력 신호를 처리하고 채널 간 관계를 학습할 수 있도록 Conv-TasNet을 다양한 형태로 확장하였다. 이를 위해 네트워크의 인코더-마스크-디코더 구조를 공간 채널, 특징, 시간 차원에 정의된 3차원 텐서와 호환되도록 수정하였다. 특히, 컨볼루션 구조에 대한 광범위한 파라미터 분석을 수행하고, 깊이 있는 컨볼루션과 1×1 컨볼루션 계층을 각각 특징 차원과 공간 차원에 독립적으로 할당하는 새로운 방식을 제안하였다. 제안된 네트워크가 얻는 풍부한 채널 간 정보가 다양한 방향에서 입사하는 노이즈 신호를 효과적으로 억제하는 데 중요한 역할을 함을 실험적으로 입증하였다. 제안한 채널 간 Conv-TasNet은 상태의 기술(SOTA) 수준의 다중채널 신경망보다 파라미터 수의 10분의 1에도 불구하고 우수한 성능을 보였다. 제안된 모델의 성능은 CHiME-3 데이터셋을 이용해 평가되었으며, SDR, PESQ, STOI 지표에서 뚜렷한 개선 효과가 나타났다.

다중채널 음성 향상용 인터채널 Conv-TasNet | 최신 연구 논문 | HyperAI초신경