17일 전

직접적 기울기를 통한 엔드투엔드 음성 인식을 위한 효율적인 신경망 아키텍처 탐색

Huahuan Zheng, Keyu An, Zhijian Ou
직접적 기울기를 통한 엔드투엔드 음성 인식을 위한 효율적인 신경망 아키텍처 탐색
초록

신경망 아키텍처 탐색(Neural Architecture Search, NAS)은 아키텍처 설계를 자동화하는 과정으로, 전문가가 설계한 네트워크를 대체하여 작업에 특화된 학습된 아키텍처를 도입함으로써 엔드투엔드 음성인식(End-to-End Automatic Speech Recognition, ASR) 기술의 발전을 위한 매력적인 다음 단계로 부상하고 있다. 초기의 계산량이 큰 NAS 방법들과는 달리, 최근의 기울기 기반 NAS 방법들—예를 들어 DARTS(Differentiable ARchiTecture Search), SNAS(Stochastic NAS), ProxylessNAS—는 NAS의 효율성을 크게 향상시켰다. 본 논문에서는 두 가지 기여를 한다. 첫째, 직선 전파(Straight-Through, ST) 기울기를 활용하여 효율적인 NAS 방법을 체계적으로 개발하였으며, 이를 ST-NAS라고 명명한다. ST-NAS는 SNAS의 손실 함수를 기반으로 하되, 이산 변수를 통과할 때 ST 기법을 사용하여 기울기를 역전파함으로써 손실을 최적화한다. 이는 ProxylessNAS에서는 명시되지 않았던 핵심적인 기법이다. ST 기울기를 활용한 하위 그래프 샘플링은 DARTS와 SNAS를 넘어서 효율적인 NAS를 달성하는 핵심 요소이다. 둘째, ST-NAS를 엔드투엔드 ASR에 성공적으로 적용하였다. 80시간 WSJ 및 300시간 Switchboard와 같이 널리 사용되는 기준 데이터셋에서의 실험 결과, ST-NAS에 의해 유도된 아키텍처가 두 데이터셋 모두에서 인간이 설계한 아키텍처보다 유의미하게 우수한 성능을 보였다. 또한 ST-NAS의 장점으로 아키텍처 이식성(architecture transferability)과 메모리 및 시간 측면에서 낮은 계산 비용이 보고되었다.

직접적 기울기를 통한 엔드투엔드 음성 인식을 위한 효율적인 신경망 아키텍처 탐색 | 최신 연구 논문 | HyperAI초신경