
초록
추출 요약 모델은 문장 단위의 라벨이 필요하며, 대부분의 요약 데이터셋이 문서-요약 쌍만을 가지고 있기 때문에 이러한 라벨은 일반적으로 휴리스틱 방식(예: 규칙 기반 방법)으로 생성됩니다. 그러나 이러한 라벨이 최적화되지 않을 수 있으므로, 문장을 잠재 변수로 간주하고 활성화된 변수를 가진 문장을 사용하여 금자탑 요약(gold summaries)을 추론하는 잠재 변수 추출 모델을 제안합니다. 훈련 과정에서 손실은 금자탑 요약에서 \emph{직접} 유래됩니다. CNN/Dailymail 데이터셋에 대한 실험 결과, 제안된 모델은 휴리스틱으로 근사된 라벨로 훈련된 강력한 추출 기준모델보다 성능이 개선되었으며, 최근의 여러 모델과 경쟁력을 갖는 것으로 나타났습니다.