17일 전
$\infty$-former: 무한 기억 트랜스포머
Pedro Henrique Martins, Zita Marinho, André F. T. Martins

초록
Transformers는 컨텍스트 길이가 증가함에 따라 수행해야 하는 계산량이 증가하기 때문에 장기 기억을 효과적으로 모델링할 수 없다. 효율적인 Transformer의 다양한 변형이 제안되었지만, 모두 유한한 기억 용량을 가지며 오래된 정보를 버려야 한다. 본 논문에서는 기존 Transformer에 비한 무한한 장기 기억 능력을 확장한 $\infty$-former을 제안한다. $\infty$-former은 연속 공간에 기반한 어텐션 메커니즘을 활용하여 장기 기억을 효율적으로 참조함으로써, 어텐션 복잡도가 컨텍스트 길이에 독립적이 되도록 하며, 기억 길이와 정밀도 사이에서 트레이드오프를 수행한다. 정밀도가 더 중요한 위치를 제어하기 위해 $\infty$-former은 '스티키 메모리(Sticky Memories)'를 유지함으로써, 계산 예산을 일정하게 유지하면서도 임의로 긴 컨텍스트를 모델링할 수 있다. 합성 정렬 작업, 언어 모델링, 문서 기반 대화 생성에 대한 실험을 통해 $\infty$-former이 긴 시퀀스로부터 정보를 효과적으로 유지할 수 있음을 입증하였다.