
摘要
文本简化是一项同语言翻译任务,旨在针对特定目标受众,对复杂源文本中的文档或句子进行简化。自动文本简化系统的效果在很大程度上取决于用于训练和评估的平行数据质量。为推动德语句子简化与文档简化的研究进展,本文提出了 DEplain——一个全新的平行语料库,包含由专业人员撰写并人工对齐的德语简易表达文本(“简易德语”,德语中称为“Einfache Sprache”)。DEplain 包含两个语料子集:新闻领域语料(约500个文档对,约1.3万个句子对)和网络领域语料(约150个对齐文档,约2000个对齐句子对)。此外,我们正在开发一个网络爬取工具,并探索自动对齐方法,以促进非对齐及未来发布的平行文本的整合。通过这一方法,我们正动态扩充网络领域语料库,目前其规模已扩展至约750个文档对和约3500个对齐句子对。实验表明,利用 DEplain 训练基于 Transformer 的序列到序列(seq2seq)文本简化模型,能够取得令人鼓舞的性能表现。我们已将该语料库、适用于德语的改进对齐方法、网络爬取工具以及训练好的模型公开发布,详见:https://github.com/rstodden/DEPlain。