17일 전
화자 인식을 위한 리셰이프 차원 네트워크
Ivan Yakovlev, Rostislav Makarov, Andrei Balykin, Pavel Malov, Anton Okhotnikov, Nikita Torgashov

초록
본 논문에서는 발화 수준의 화자 표현을 추출하기 위한 새로운 신경망 아키텍처인 Reshape Dimensions Network(ReDimNet)을 제안한다. 제안하는 방법은 2차원 특징 맵을 1차원 신호 표현으로, 그리고 그 반대로 차원을 재구성하는 기법을 활용하여 1차원 및 2차원 블록의 병렬적 사용을 가능하게 한다. 우리는 1차원 및 2차원 블록의 채널-타임스텝-주파수 출력 볼륨을 유지하는 독창적인 네트워크 구조를 제안함으로써, 효율적인 잔차 특징 맵 통합을 촉진한다. 또한 ReDimNet은 높은 확장성을 지니며, 파라미터 수가 1~15M, 연산량이 0.5~20 GMACs 범위에서 다양한 크기의 모델을 제안한다. 실험 결과, ReDimNet은 계산 복잡도와 모델 파라미터 수를 감소시키면서도 화자 인식 분야에서 최신 기준(SOTA) 성능을 달성함을 입증하였다.