9일 전

모든 기억이 동등한 것은 아니다: 만료를 통한 잊기 학습

Sainbayar Sukhbaatar, Da Ju, Spencer Poff, Stephen Roller, Arthur Szlam, Jason Weston, Angela Fan
모든 기억이 동등한 것은 아니다: 만료를 통한 잊기 학습
초록

주의 메커니즘(Attention mechanisms)은 장기 기억이 필요한 시계열 모델링 작업에서 희망적인 성과를 보여주었다. 최근 연구에서는 기억을 보존하고 저장하는 데 드는 계산 비용을 줄이기 위한 메커니즘을 탐구해왔다. 그러나 과거의 모든 정보가 동일하게 기억할 가치가 있는 것은 아니다. 우리는 가장 중요한 정보만을 유지하고 관련 없는 정보는 만료시키는 방식으로 학습하는 Expire-Span 기법을 제안한다. 이러한 기억의 소멸(forgotten memories) 메커니즘은 Transformer 모델이 수만 개의 과거 타임스텝에 걸쳐 효율적으로 주의를 기울일 수 있도록 해주며, 모든 이전 타임스텝의 상태를 보존할 필요가 없기 때문이다. 우리는 Expire-Span이 모델이 핵심 정보를 식별하고 유지하는 데 도움을 주며, 특히 이러한 기능을 시험하는 데 특화된 강화학습 작업에서 뛰어난 성능을 달성할 수 있음을 입증한다. 다음으로, Expire-Span이 수만 단위의 긴 기억을 처리할 수 있음을 보여주며, 문자 수준의 언어 모델링과 프레임 단위로 움직이는 물체를 추적하는 과제와 같은 극히 긴 컨텍스트 작업에서 새로운 최고 성능(State-of-the-art)을 달성한다. 마지막으로, 기존 접근법과 비교하여 Expire-Span의 효율성을 분석하고, 학습 속도가 빠르며 메모리 사용량이 적다는 점을 입증한다.