
要約
現在のテキスト簡略化(Text Simplification: TS)に関する研究は、二つの中心的な課題によって妨げられている。第一に、高品質な並列簡略化データが極めて少ないこと、第二に、既存データに削除や置換といった簡略化操作の明示的なアノテーションが欠如していることである。最近導入されたNewselaコーパスにより、第一の課題は緩和されたものの、依然として簡略化は並列テキストからブラックボックス型のエンドツーエンドアプローチによって直接学習される必要があり、明示的なアノテーションからの学習は行われていない。このような複雑な文と簡略化された文の並列ペアは、しばしば極めて大きな違いを示すため、一般化が困難となる。また、エンドツーエンドモデルでは、データから実際に学習された内容の解釈が困難となる。本研究では、TSのタスクをその下位問題に分解する手法を提案する。まず、並列コーパス内における簡略化操作を自動的に同定する方法を設計し、これらのアノテーションに基づいたシーケンスラベリングアプローチを導入する。最後に、異なるアプローチがどのような変換をモデル化できるかに関する洞察を提供する。