
要約
従来、テキスト簡略化(Text Simplification)は、元のテキストとその簡略化版の文を対応付けて学習を行う単言語翻訳タスクとして扱われてきた。しかし、特に長文の入力文書に対しては、テキストの要約(あるいは関連性の低い内容を削除する)が簡略化プロセスにおいて重要な役割を果たすが、この点は現在のデータセットには反映されていない。同時に、英語以外の言語用のリソースは一般的に不足しており、新たな手法の学習には現実的でない状況にある。こうした課題に対処するため、長文の元テキストを同時に要約・簡略化できるシステムに求められる基本的な要件を提示する。さらに、ドイツ語ウィキペディアとドイツ語の子ども向け語彙集「Klexikon」を基に、テキストの簡略化と要約を統合する新しいデータセットの構築について述べる。本データセットは約2,900件のドキュメントから構成されており、特に要約の側面を強調した文書レベルの対応バージョンを公開する。また、統計的証拠を提示し、本リソースが簡略化タスクにも適していることを示す。コードとデータはGitHubで公開されている:https://github.com/dennlinger/klexikon