2달 전

거리 기반 자기 주의 네트워크를 이용한 자연어 추론

Jinbae Im; Sungzoon Cho
거리 기반 자기 주의 네트워크를 이용한 자연어 추론
초록

주의 메커니즘이 RNN 또는 CNN을 돕기 위한 보조 수단으로 사용되어 왔습니다. 그러나, 트랜스포머(Vaswani 등, 2017)는 주의만을 사용하여 기계 번역에서 훈련 시간을 크게 줄이면서 최고의 성능을 기록하였습니다. 트랜스포머에 영감을 받아, 방향성 자기 주의 네트워크(Shen 등, 2017)라는 완전히 주의 기반의 문장 인코더가 제안되었습니다. 이 모델은 문장 내에서 전방향과 후방향 정보를 활용하여 다양한 데이터에서 좋은 성능을 보였습니다. 하지만 그들의 연구에서는 단어 간 거리라는 중요한 특성이 전혀 고려되지 않았는데, 이는 입력 텍스트의 맥락 이해를 돕기 위해 로컬 의존성을 학습할 때 중요한 요소입니다. 우리는 단순한 거리 마스크를 사용하여 로컬 의존성을 모델링하면서도 주의가 본래 가지고 있는 글로벌 의존성 모델링 능력을 잃지 않도록 하는 거리 기반 자기 주의 네트워크를 제안합니다. 우리의 모델은 NLI 데이터에서 좋은 성능을 보이며, SNLI 데이터에서는 새로운 최고 성능 결과를 기록하였습니다. 또한, 우리의 모델이 긴 문장이나 문서에서 강점을 가짐을 보여주었습니다.