11일 전

사전 훈련된 텍스트-텍스트 모델을 긴 텍스트 시퀀스에 적응시키기

Wenhan Xiong, Anchit Gupta, Shubham Toshniwal, Yashar Mehdad, Wen-tau Yih
사전 훈련된 텍스트-텍스트 모델을 긴 텍스트 시퀀스에 적응시키기
초록

우리는 기존의 사전 훈련된 텍스트-텍스트 모델을 긴 시퀀스 입력에 적응시키기 위한 실증적 연구를 제안한다. 사전 훈련 파이프라인의 세 가지 축—모델 아키텍처, 최적화 목적, 사전 훈련 코퍼스—에 걸쳐 종합적인 연구를 수행한 결과, 기존의 단기적 컨텍스트 모델로부터 장기적 컨텍스트 모델을 효과적으로 구축할 수 있는 방법론을 제안한다. 구체적으로, 트랜스포머에서의 전체 어텐션(attention)을 풀링 증강 블록웨이즈 어텐션(blockwise attention)으로 대체하고, 길이가 다양한 스팬을 갖는 마스킹 스팬 예측 작업을 통해 모델을 사전 훈련한다. 사전 훈련 코퍼스 측면에서는, 기존의 장기 문서 코퍼스가 일반적으로 도메인 커버리지가 제한적인 반면, 대규모 오픈 도메인 코퍼스에서 무작위로 연결된 단문 문서들을 사용하는 것이 더 우수한 성능을 보임을 발견하였다. 이러한 발견을 바탕으로, 긴 텍스트 질의응답(QA) 작업에서 경쟁력 있는 성능을 달성하고, 다섯 개의 긴 텍스트 요약 데이터셋에서 기존의 더 큰 크기의 모델들보다 뛰어난 성능을 보이는 새로운 최고 성능(SOTA)을 확립한 장기 컨텍스트 모델을 구축하였다. 본 연구의 코드는 https://github.com/facebookresearch/bart_ls 에 공개되었다.

사전 훈련된 텍스트-텍스트 모델을 긴 텍스트 시퀀스에 적응시키기 | 최신 연구 논문 | HyperAI초신경