
깊은 신경망(Deep Neural Networks, DNNs)은 어려운 학습 과제에서 뛰어난 성능을 보인 강력한 모델입니다. 그러나 대규모 라벨링된 훈련 세트가 제공되는 경우에만 잘 작동하며, 시퀀스를 시퀀스로 매핑하는 데는 사용할 수 없습니다. 본 논문에서는 시퀀스 구조에 대한 최소한의 가정을 바탕으로 하는 일반적인 엔드투엔드(end-to-end) 시퀀스 학습 접근법을 제시합니다. 제안된 방법은 다층 장단기 메모리(Long Short-Term Memory, LSTM)를 사용하여 입력 시퀀스를 고정된 차원의 벡터로 변환하고, 그 다음으로 깊은 LSTM을 사용하여 벡터에서 목표 시퀀스를 디코딩합니다.본 연구의 주요 결과는 WMT'14 데이터셋의 영어-프랑스어 번역 작업에서 LSTM이 생성한 번역이 전체 테스트 세트에서 OOV(Out-of-Vocabulary) 단어에 대해 패널티가 부과되었음에도 불구하고 BLEU 점수 34.8을 달성했다는 것입니다. 또한, LSTM은 긴 문장에서도 어려움을 겪지 않았습니다. 비교를 위해 동일한 데이터셋에서 구문 기반 통계적 기계 번역(phrase-based Statistical Machine Translation, SMT) 시스템은 BLEU 점수 33.3을 기록했습니다. 앞서 언급한 SMT 시스템이 생성한 1000개의 가설들을 LSTM으로 재순위화(re-ranking)했을 때, BLEU 점수가 36.5로 증가하여 이 작업의 이전 최고 결과와 유사해졌습니다.또한 LSTM은 단어 순서에 민감하면서도 능동태와 피동태에 상대적으로 불변(invariant)인 의미 있는 구문 및 문장 표현을 학습하였습니다. 마지막으로, 모든 소스 문장의 단어 순서를 역순으로 바꾸었을 때(LSTM의 성능이 크게 개선됨을 발견했습니다. 이렇게 하면 소스 문장과 목표 문장 사이에 많은 단기 의존성이 도입되어 최적화 문제가 더 쉽게 해결되었습니다.