
신경망 아키텍처 탐색(Neural Architecture Search, NAS)은 아키텍처 설계를 자동화하는 과정으로, 전문가가 설계한 네트워크를 대체하여 작업에 특화된 학습된 아키텍처를 도입함으로써 엔드투엔드 음성인식(End-to-End Automatic Speech Recognition, ASR) 기술의 발전을 위한 매력적인 다음 단계로 부상하고 있다. 초기의 계산량이 큰 NAS 방법들과는 달리, 최근의 기울기 기반 NAS 방법들—예를 들어 DARTS(Differentiable ARchiTecture Search), SNAS(Stochastic NAS), ProxylessNAS—는 NAS의 효율성을 크게 향상시켰다. 본 논문에서는 두 가지 기여를 한다. 첫째, 직선 전파(Straight-Through, ST) 기울기를 활용하여 효율적인 NAS 방법을 체계적으로 개발하였으며, 이를 ST-NAS라고 명명한다. ST-NAS는 SNAS의 손실 함수를 기반으로 하되, 이산 변수를 통과할 때 ST 기법을 사용하여 기울기를 역전파함으로써 손실을 최적화한다. 이는 ProxylessNAS에서는 명시되지 않았던 핵심적인 기법이다. ST 기울기를 활용한 하위 그래프 샘플링은 DARTS와 SNAS를 넘어서 효율적인 NAS를 달성하는 핵심 요소이다. 둘째, ST-NAS를 엔드투엔드 ASR에 성공적으로 적용하였다. 80시간 WSJ 및 300시간 Switchboard와 같이 널리 사용되는 기준 데이터셋에서의 실험 결과, ST-NAS에 의해 유도된 아키텍처가 두 데이터셋 모두에서 인간이 설계한 아키텍처보다 유의미하게 우수한 성능을 보였다. 또한 ST-NAS의 장점으로 아키텍처 이식성(architecture transferability)과 메모리 및 시간 측면에서 낮은 계산 비용이 보고되었다.