9일 전

피드백 메모리를 활용한 트랜스포머의 일부 한계 극복

Angela Fan, Thibaut Lavril, Edouard Grave, Armand Joulin, Sainbayar Sukhbaatar
피드백 메모리를 활용한 트랜스포머의 일부 한계 극복
초록

Transformer는 순차적이고 자동 회귀적(task)인 작업에 성공적으로 적용되었음에도 불구하고, 피드포워드 네트워크에 불과하다. 순환 신경망(RNN)과 달리 Transformer는 입력 토큰을 병렬로 처리하면서도 주목(attention) 메커니즘을 통해 시계열적 관계를 포착한다. 이러한 병렬 처리는 계산 효율성을 높이지만, 입력의 순차적 특성을 완전히 활용할 수 있도록 하지 못한다. 특정 레이어의 표현은 이미 계산된 고수준 표현에 접근할 수 없고, 오직 낮은 레이어의 표현들만 참조할 수 있다. 본 연구에서는 모든 이전 표현을 모든 미래 표현에 노출시키는 피드백 Transformer(Feedback Transformer) 아키텍처를 제안한다. 이는 현재 타임스텝의 최저 수준 표현이 과거의 최고 수준 추상 표현으로부터 구성됨을 의미한다. 언어 모델링, 기계 번역, 강화 학습 등 다양한 벤치마크에서 실험을 수행한 결과, 증가된 표현 능력 덕분에 기존 Transformer와 비교해 더 작고 얕은 모델이 훨씬 더 뛰어난 성능을 발휘할 수 있음을 입증하였다.