9일 전
모든 기억이 동등한 것은 아니다: 만료를 통한 잊기 학습
Sainbayar Sukhbaatar, Da Ju, Spencer Poff, Stephen Roller, Arthur Szlam, Jason Weston, Angela Fan

초록
주의 메커니즘(Attention mechanisms)은 장기 기억이 필요한 시계열 모델링 작업에서 희망적인 성과를 보여주었다. 최근 연구에서는 기억을 보존하고 저장하는 데 드는 계산 비용을 줄이기 위한 메커니즘을 탐구해왔다. 그러나 과거의 모든 정보가 동일하게 기억할 가치가 있는 것은 아니다. 우리는 가장 중요한 정보만을 유지하고 관련 없는 정보는 만료시키는 방식으로 학습하는 Expire-Span 기법을 제안한다. 이러한 기억의 소멸(forgotten memories) 메커니즘은 Transformer 모델이 수만 개의 과거 타임스텝에 걸쳐 효율적으로 주의를 기울일 수 있도록 해주며, 모든 이전 타임스텝의 상태를 보존할 필요가 없기 때문이다. 우리는 Expire-Span이 모델이 핵심 정보를 식별하고 유지하는 데 도움을 주며, 특히 이러한 기능을 시험하는 데 특화된 강화학습 작업에서 뛰어난 성능을 달성할 수 있음을 입증한다. 다음으로, Expire-Span이 수만 단위의 긴 기억을 처리할 수 있음을 보여주며, 문자 수준의 언어 모델링과 프레임 단위로 움직이는 물체를 추적하는 과제와 같은 극히 긴 컨텍스트 작업에서 새로운 최고 성능(State-of-the-art)을 달성한다. 마지막으로, 기존 접근법과 비교하여 Expire-Span의 효율성을 분석하고, 학습 속도가 빠르며 메모리 사용량이 적다는 점을 입증한다.