
초록
재귀 신경망(RNNs)은 많은 시퀀스-투-시퀀스 모델링 작업에서 최고 수준의 성과를 달성하고 있습니다. 그러나 RNNs는 훈련이 어려우며 과적합 문제에 취약합니다. 데이터 처리 부등식(Data Processing Inequality, DPI)을 동기로 삼아, 다층 네트워크를 마르코프 연쇄(Markov chain)로 표현하고, 점진적인 네트워크 훈련과 계층별 그래디언트 클리핑(layer-wise gradient clipping)을 포함하는 훈련 방법을 제안하였습니다. 우리의 방법을 기존의 정규화 및 최적화 방법들과 결합하여 적용한 결과, 언어 모델링 작업에서 작동하는 최신 아키텍처들의 성능이 개선되는 것을 확인하였습니다.