
초록
추출형 요약과 생성형 요약을 결합하려는 시도로서, 문장 재작성(Sentence Rewriting) 모델은 문서에서 핵심 문장을 먼저 추출한 후, 선택된 문장을 재구성하여 요약을 생성하는 전략을 채택한다. 그러나 기존의 이러한 프레임워크 내 모델들은 주로 문장 수준의 보상 또는 최적화되지 않은 레이블에 의존하여, 학습 목적과 평가 지표 사이에 일치하지 않는 문제가 발생한다. 본 논문에서는 강화학습을 통해 요약 수준의 ROUGE 점수를 직접 최대화하는 새로운 학습 신호를 제안한다. 또한 모델에 BERT를 통합하여 자연어 이해 능력을 효과적으로 활용한다. 광범위한 실험을 통해 제안하는 모델과 학습 절차의 조합이 CNN/Daily Mail 및 뉴욕타임스(NY Times) 데이터셋에서 새로운 최고 성능(SOTA)을 달성함을 보여주며, DUC-2002 테스트 세트에서도 더 우수한 일반화 능력을 입증한다.