9일 전

Longformer: 긴 문서를 위한 Transformer

Iz Beltagy, Matthew E. Peters, Arman Cohan
Longformer: 긴 문서를 위한 Transformer
초록

Transformer 기반 모델은 시퀀스 길이에 따라 자기주의(attention) 연산이 제곱적으로 증가하기 때문에 긴 시퀀스를 처리하는 데 한계가 있다. 이 문제를 해결하기 위해 우리는 시퀀스 길이에 비례해 선형적으로 확장되는 주의 메커니즘을 갖춘 Longformer을 제안한다. 이로 인해 수천 개 이상의 토큰을 포함하는 문서를 쉽게 처리할 수 있다. Longformer의 주의 메커니즘은 기존 자기주의의 즉시 대체 가능하며, 국소적 윈도우 주의와 작업 지향적 전역 주의를 결합한다. 기존의 긴 시퀀스 Transformer 연구와 동일하게, 우리는 Longformer을 문자 수준 언어 모델링 작업에 적용하여 text8 및 enwik8에서 최고 성능을 달성하였다. 기존 연구와 달리, 우리는 Longformer을 사전 훈련한 후 다양한 하류 작업에 대해 미세 조정(finetuning)하였다. 사전 훈련된 Longformer은 긴 문서 작업에서 RoBERTa를 지속적으로 능가하며, WikiHop과 TriviaQA에서 새로운 최고 성능 기록을 수립하였다. 마지막으로 우리는 긴 문서 생성을 위한 시퀀스-투-시퀀스 작업을 지원할 수 있도록 설계된 Longformer-Encoder-Decoder(이하 LED)를 소개하고, arXiv 요약 데이터셋에서 그 효과를 입증하였다.

Longformer: 긴 문서를 위한 Transformer | 최신 연구 논문 | HyperAI초신경