
과학적 극단 요약(TLDR)은 과학 논문의 초단기 요약을 생성하는 것을 목표로 합니다. 과거에 과학 TLDR 데이터셋을 큐레이팅하는 시도들은 인간의 주석 작업과 전문 지식이 많이 필요하여 대규모화에 실패했습니다. 본 논문에서는 과학 논문의 인용 텍스트에서 자동으로 TLDR 요약을 추출하기 위한 간단하면서도 효과적인 접근법을 제안합니다. 제안된 접근법을 기반으로, 인간 주석 없이 약 30배 더 큰 이전 인간 큐레이팅 데이터셋(SciTLDR)보다 훨씬 큰 새로운 벤치마크 CiteSum을 생성하였습니다. 우리는 CiteSum의 데이터 특성을 분석하고 강력한 기준선을 설정하기 위해 포괄적인 분석을 수행하였습니다. 또한 CiteSum에서 사전 학습된 모델(CITES)을 적은 감독 하에 새로운 작업 및 도메인으로 유연하게 적용함으로써 CiteSum의 유용성을 입증하였습니다. 과학적 극단 요약에서 CITES는 SciTLDR에서 어떤 미세 조정(fine-tuning)도 없이 대부분의 완전히 감독된 방법들을 능가하며, 단 128개 예제만으로 최고 수준의 성능을 달성하였습니다. 뉴스 극단 요약에서는 CITES가 XSum에서 기저 모델(미리 CiteSum에서 사전 학습되지 않은 모델)보다 크게 개선된 성능(+7.2 ROUGE-1 zero-shot 성능 및 최고 수준의 few-shot 성능)을 보였습니다. 뉴스 헤드라인 생성에서는 CITES가 Gigaword에서 비감독 및 zero-shot 방법들 중 가장 우수한 성능을 보였습니다. 우리의 데이터셋과 코드는 https://github.com/morningmoni/CiteSum 에서 확인할 수 있습니다.