11일 전

알렉산드리아의 울림: 다국어 책 요약을 위한 대규모 자원

Alessandro Scirè, Simone Conia, Simone Ciciliano, Roberto Navigli
알렉산드리아의 울림: 다국어 책 요약을 위한 대규모 자원
초록

최근 몇 년간 텍스트 요약 연구는 일반적으로 텍스트가 짧고 강한 레이아웃 특성을 지닌 뉴스 분야에 주로 집중되어 왔다. 그러나 전체 책 요약(task of full-book summarization)은 현재의 자원이 영어로만 제한되어 있으며 규모도 작아 해결하기 어려운 추가적인 도전 과제를 내포하고 있다. 이러한 한계를 극복하기 위해, 우리는 다국어 책 요약을 위한 대규모 자원인 ‘알렉산드리아의 메아리(Echoes from Alexandria)’ 또는 약칭인 ‘Echoes’를 제안한다. Echoes는 세 가지 새로운 데이터셋을 포함한다. 첫째, 다국어 책 요약을 위한 Echo-Wiki, 둘째, 극도로 압축적인 다국어 책 요약을 위한 Echo-XSum, 셋째, 추출 기반 책 요약을 위한 Echo-FairySum이다. 우리 지식에 따르면, 수천 권의 책과 요약문을 포함하고 있으며, 5개 언어와 25개 언어 쌍을 지원하는 다국어 기능을 갖춘 Echoes는 현재까지 가장 규모가 크고, 처음으로 다국어를 지원하는 자원이다. 또한 Echoes 외에도 추출 기반 후 추상 기반의 새로운 베이스라인을 제안하며, 생성된 요약문에 대한 실험 결과와 수작업 분석을 바탕으로, 순수 추상 기반 접근보다 이 베이스라인이 책 요약에 더 적합하다고 주장한다. 본 연구에서 개발한 자원과 소프트웨어는 https://github.com/Babelscape/echoes-from-alexandria 에 공개하여 다국어 책 요약 분야에서 혁신적인 연구를 촉진하고자 한다.

알렉산드리아의 울림: 다국어 책 요약을 위한 대규모 자원 | 최신 연구 논문 | HyperAI초신경