한 달 전

지속 메모리를 활용한 자기 주의력 강화

Sainbayar Sukhbaatar; Edouard Grave; Guillaume Lample; Herve Jegou; Armand Joulin
지속 메모리를 활용한 자기 주의력 강화
초록

트랜스포머 네트워크는 언어 모델링과 기계 번역 분야에서 중요한 진전을 이끌었습니다. 이러한 모델은 피드 포워드 레이어와 자기 주의(self-attention) 레이어로 구성된 두 개의 연속적인 모듈을 포함합니다. 후자(self-attention 레이어)는 네트워크가 장기 의존성을 포착할 수 있게 하며, 트랜스포머의 성공에 있어 핵심 요소로 간주됩니다. 이러한 직관에 기반하여, 우리는 오직 주의 레이어만으로 구성된 새로운 모델을 제안합니다. 구체적으로, 우리는 피드 포워드 레이어와 유사한 역할을 하는 지속 메모리 벡터를 자기 주의 레이어에 추가합니다. 이러한 벡터 덕분에, 트랜스포머의 성능을 저하시키지 않고 피드 포워드 레이어를 제거할 수 있습니다. 우리의 평가는 표준 문자 및 단어 수준 언어 모델링 벤치마크에서 제안된 모델의 이점을 보여줍니다.