2달 전

희귀 사건을 기억하는 법 배우기

Łukasz Kaiser; Ofir Nachum; Aurko Roy; Samy Bengio
희귀 사건을 기억하는 법 배우기
초록

최근의 발전에도 불구하고, 메모리 강화된 딥 뉴럴 네트워크는 여전히 일생 학습(life-long learning)과 단일 샷 학습(one-shot learning)에서 제한적이며, 특히 드문 이벤트를 기억하는 데 어려움을 겪고 있습니다. 본 연구에서는 딥 러닝에 사용하기 위한 대규모 일생 메모리 모듈을 제시합니다. 이 모듈은 효율성을 위해 빠른 최근접 이웃 알고리즘(fast nearest-neighbor algorithms)을 활용하여 대용량 메모리를 처리할 수 있습니다. 최근접 이웃 쿼리를 제외하고, 모듈은 완전히 미분 가능하며 추가적인 감독 없이 엔드투엔드로 훈련됩니다. 또한, 이 모듈은 훈련 중 리셋이 필요하지 않은 일생 방식으로 작동합니다.우리의 메모리 모듈은 감독된 신경망의 어느 부분에든 쉽게 추가될 수 있습니다. 그 유연성을 보여주기 위해, 이미지 분류를 테스트한 간단한 컨벌루션 신경망부터 깊은 시퀀스-투-시퀀스(sequence-to-sequence) 및 순환-컨벌루션(recurrent-convolutional) 모델까지 다양한 네트워크에 이 모듈을 추가했습니다. 모든 경우에서, 강화된 네트워크는 기억 능력과 일생 단일 샷 학습 능력을 획득하였습니다. 우리의 모듈은 과거 수천 단계 전에 표시되었던 훈련 예제들을 기억하며, 이를 통해 성공적으로 일반화할 수 있습니다. 우리는 Omniglot 데이터셋에서 단일 샷 학습의 새로운 최고 기준(state-of-the-art)을 설정하였으며, 처음으로 대규모 기계 번역 작업에서 순환 신경망에서의 일생 단일 샷 학습을 시연하였습니다.