2달 전

단순 재귀 유닛(Simple Recurrent Units)을 이용한 고도로 병렬화 가능한 재귀

Tao Lei; Yu Zhang; Sida I. Wang; Hui Dai; Yoav Artzi
단순 재귀 유닛(Simple Recurrent Units)을 이용한 고도로 병렬화 가능한 재귀
초록

일반적인 순환 신경망 구조는 상태 계산을 병렬화하는 데 내재적인 어려움이 있어 확장성이 좋지 않습니다. 본 연구에서는 모델 용량과 확장성 사이의 균형을 맞춘 경량 순환 유닛인 Simple Recurrent Unit (SRU)를 제안합니다. SRU는 표현력 있는 순환성을 제공하고, 높은 병렬화를 가능하게 하며, 깊은 모델의 훈련을 용이하게 하는 신중한 초기화를 포함하고 있습니다. 우리는 여러 자연어 처리(NLP) 작업에서 SRU의 효과를 입증하였습니다. SRU는 분류 및 질문 응답 데이터셋에서 cuDNN 최적화된 LSTM보다 5~9배 빠른 속도를 보이며, LSTM과 컨볼루션 모델보다 더 우수한 결과를 제공합니다. 또한, SRU를 아키텍처에 통합함으로써 번역 작업에서 Transformer 모델보다 평균 0.7 BLEU 점수 개선을 얻었습니다.

단순 재귀 유닛(Simple Recurrent Units)을 이용한 고도로 병렬화 가능한 재귀 | 최신 연구 논문 | HyperAI초신경