11일 전

Klexikon: 종합 요약 및 단순화를 위한 독일어 데이터셋

Dennis Aumiller, Michael Gertz

초록

기존에는 텍스트 단순화(Text Simplification)가 원문과 단순화된 문장 간의 일대일 대응을 학습하기 위해 단일 언어 번역 작업으로 다뤄져 왔다. 그러나 특히 긴 입력 문서의 경우, 텍스트를 요약하거나 관련성이 낮은 내용을 제거하는 과정이 단순화 과정에서 중요한 역할을 하며, 이는 현재 존재하는 데이터셋에는 반영되어 있지 않다. 동시에 비영어 언어에 대한 자료는 일반적으로 부족하며, 새로운 솔루션을 학습하기에는 접근이 어렵다. 이러한 문제를 해결하기 위해, 긴 원문 문서를 동시에 요약하고 단순화할 수 있는 시스템이 가져야 할 핵심 요구사항을 제시한다. 또한 독일 위키백과와 독일 어린이용 어휘사전 'Klexikon'을 기반으로 하여, 약 2,900개의 문서로 구성된 새로운 공동 텍스트 단순화 및 요약 데이터셋을 구축하는 과정을 설명한다. 특히 요약 측면을 강조한 문서 수준의 정렬 버전을 공개하며, 통계적 증거를 통해 이 자료가 단순화 작업에도 적합함을 제시한다. 코드와 데이터는 GitHub에서 제공되며: https://github.com/dennlinger/klexikon