
초록
신경망 추출 요약 모델은 일반적으로 문서 인코딩을 위해 계층적 인코더를 사용하며, 문장 단위 라벨을 이용하여 훈련됩니다. 이러한 라벨은 규칙 기반 방법을 통해 휴리스틱하게 생성됩니다. 그러나 이들 \emph{부정확한} 라벨로 계층적 인코더를 훈련시키는 것은 어려움이 따릅니다. 최근 트랜스포머 문장 인코더의 사전 훈련 연구 \cite{devlin:2018:arxiv}에서 영감을 얻어, 우리는 문서 인코딩을 위한 {\sc Hibert} ({\bf HI}erarchical {\bf B}idirectional {\bf E}ncoder {\bf R}epresentations from {\bf T}ransformers의 약자)와 이를 비라벨 데이터를 사용하여 사전 훈련하는 방법을 제안합니다. 사전 훈련된 {\sc Hibert}를 우리의 요약 모델에 적용한 결과, CNN/Dailymail 데이터셋에서는 무작위 초기화된 모델보다 1.25 ROUGE 점수가 높았으며, New York Times 데이터셋의 한 버전에서는 2.0 ROUGE 점수가 높았습니다. 또한 우리는 이 두 데이터셋에서 최고 수준의 성능을 달성하였습니다.