라이트 게이티드 리커런트 유닛(Light Gated Recurrent Units)을 활용한 음성 인식

최근 딥 러닝의 발전으로 직접적으로 혜택을 본 분야 중 하나가 자동 음성 인식(Automatic Speech Recognition, ASR)입니다. 그러나 과거 수십 년 동안의 큰 성과에도 불구하고, 특히 상당한 노이즈와 반향이 있는 어려운 환경에서 자연스럽고 견고한 인간-기계 간 음성 상호작용은 여전히 달성하기 어려운 상태입니다. 견고성을 개선하기 위해 현대의 음성 인식 시스템은 종종 재귀 신경망(Recurrent Neural Networks, RNNs) 기반의 음향 모델을 사용합니다. 이러한 모델은 자연스럽게 긴 시간 컨텍스트와 장기적인 음성 변동을 활용할 수 있습니다. 따라서 RNNs가 음성 신호 처리에서 효과를 높이는 데 필요한 기술에 대한 연구를 계속하는 것이 매우 중요합니다.본 논문에서는 가장 널리 사용되는 RNN 모델 중 하나인 게이트 재귀 유닛(Gated Recurrent Units, GRUs)을 검토하고, ASR에 매우 효과적인 단순화된 아키텍처를 제안합니다. 이 연구의 기여는 두 가지로 요약됩니다: 첫째, 리셋 게이트(reset gate)의 역할을 분석하여 업데이트 게이트(update gate)와 상당한 중복성이 발생함을 보였습니다. 그 결과, GRU 설계에서 리셋 게이트를 제거하여 더 효율적이고 컴팩트한 싱글-게이트 모델을 제안하였습니다. 둘째, 쌍곡 탄젠트(hyperbolic tangent) 활성화 함수를 ReLU 활성화 함수로 대체하는 방법을 제안하였습니다. 이 변화는 배치 정규화(batch normalization)와 잘 결합되며, 숫자 문제 없이 장기 의존성을 학습하는 데 도움이 될 수 있습니다.실험 결과, 제안된 아키텍처인 경량 GRU(Light GRU, Li-GRU)는 표준 GRU보다 에포크 당 훈련 시간을 30% 이상 줄이는 한편, 다양한 작업, 입력 특징, 노이즈 조건 및 다른 ASR 패러다임(표준 DNN-HMM 음성 인식기부터 엔드투엔드 CTC 모델까지)에서 일관되게 인식 정확도를 향상시키는 것으로 나타났습니다.