
초록
본 논문에서는 추상적 요약(abstract summarization)을 위한 개념적으로 간단하면서도 경험적으로 강력한 프레임워크인 SimCLS를 제안한다. 이 프레임워크는 기존의 주로 사용되는 시퀀스-투-시퀀스(sequence-to-sequence) 학습 프레임워크에서 발생하는 학습 목표와 평가 지표 사이의 격차를 해소하기 위해, 대조 학습(contrastive learning)을 활용하여 참조 문헌 없이 텍스트 생성의 품질을 평가하는 문제(즉, 품질 추정, quality estimation)로 변환함으로써 해결한다. 실험 결과, 기존 최고 성능 모델들에 대한 미세한 수정만으로도 SimCLS가 기존 최고 성능 모델의 성능을 크게 향상시킬 수 있음을 확인하였다. 특히 CNN/DailyMail 데이터셋에서 BART 대비 ROUGE-1 기준 2.51점의 절대적 개선, PEGASUS 대비 2.50점의 절대적 개선을 달성하며, 기존 최고 성능을 새롭게 정의하는 수준으로 발전시켰다. 본 연구의 코드와 실험 결과는 오픈소스로 공개되었으며, 아래 링크를 통해 확인할 수 있다: https://github.com/yixinL7/SimCLS. 또한 제안한 모델의 결과는 ExplainaBoard 플랫폼에 배포되어, 연구자들이 시스템의 동작을 더 세밀하고 깊이 있게 이해할 수 있도록 지원한다.