11일 전

AutoSpeech: 화자 인식을 위한 신경망 아키텍처 탐색

Shaojin Ding, Tianlong Chen, Xinyu Gong, Weiwei Zha, Zhangyang Wang
AutoSpeech: 화자 인식을 위한 신경망 아키텍처 탐색
초록

음성 인식 시스템은 일반적으로 VGG-Net이나 ResNet과 같은 사전 구축된 백본(Backbone)을 기반으로 구축된다. 그러나 이러한 백본들은 원래 이미지 분류를 위한 목적으로 제안된 것이며, 음성 인식 작업에 자연스럽게 적합하지 않을 수 있다. 수작업으로 설계 공간을 탐색하는 것은 비용이 매우 크기 때문에, 본 연구에서는 음성 인식 작업을 위한 최초의 신경망 아키텍처 탐색(Neural Architecture Search, NAS) 기법을 제안한다. 이를 AutoSpeech라고 명명한다. 제안하는 알고리즘은 먼저 신경 셀(Neural Cell) 내에서 최적의 연산 조합을 탐지한 후, 이를 다수 번 반복적으로 쌓아 CNN 모델을 구성한다. 이후 표준 학습 방식을 통해 유도된 CNN 모델을 학습함으로써 최종 음성 인식 모델을 얻을 수 있다. 제안된 방법의 성능을 평가하기 위해, VoxCeleb1 데이터셋을 활용하여 음성 식별(Speaker Identification) 및 음성 검증(Speaker Verification) 작업에서 실험을 수행하였다. 실험 결과, 제안한 방법을 통해 유도된 CNN 아키텍처는 기존의 VGG-M, ResNet-18, ResNet-34 기반 음성 인식 시스템을 상당히 능가함과 동시에 더 낮은 모델 복잡도를 유지함을 입증하였다.