
초록
최근 몇 년 동안 신경망이 입력이나 메모리의 선택된 부분에 주의를 집중시키는 여러 메커니즘이 딥 러닝 모델에서 성공적으로 사용되었습니다. 주의 메커니즘은 이미지 분류, 이미지 캡셔닝, 음성 인식, 생성 모델, 그리고 알고리즘적 학습 과제 등에서 성능을 향상시켰지만, 특히 신경 기계 번역에 가장 큰 영향을 미쳤습니다.최근에는 단일 메모리 부분에만 집중하지 않고 모든 메모리를 병렬로 일관되게 처리하는 대체 메커니즘을 사용하여 유사한 개선이 이루어졌습니다. 이러한 메커니즘을 '활성 메모리'라고 부르며, 알고리즘적 과제, 이미지 처리, 그리고 생성 모델링에서 주의 메커니즘보다 우수한 성능을 보였습니다.그러나 아직까지 활성 메모리는 대부분의 자연어 처리 과제, 특히 기계 번역에서는 주의 메커니즘보다 성능을 향상시키지 못했습니다. 본 논문에서는 이 문제점을 분석하고, 신경 기계 번역에서 기존 주의 모델과 동등한 성능을 내면서 더 긴 문장으로 일반화되는 확장된 활성 메모리 모델을 제안합니다. 우리는 이 모델을 조사하고 이전 활성 메모리 모델들이 실패한 이유를 설명합니다. 마지막으로, 활성 메모리가 가장 많은 혜택을 가져오는 상황과 주의가 더 좋은 선택일 수 있는 경우를 논의합니다.