HyperAIHyperAI

Command Palette

Search for a command to run...

DEPLAIN:一种德语平行语料库,包含同语言内的通俗语言翻译,用于句子与文档简化

Regina Stodden Omar Momen Laura Kallmeyer

摘要

文本简化是一项同语言翻译任务,旨在针对特定目标受众,对复杂源文本中的文档或句子进行简化。自动文本简化系统的效果在很大程度上取决于用于训练和评估的平行数据质量。为推动德语句子简化与文档简化的研究进展,本文提出了 DEplain——一个全新的平行语料库,包含由专业人员撰写并人工对齐的德语简易表达文本(“简易德语”,德语中称为“Einfache Sprache”)。DEplain 包含两个语料子集:新闻领域语料(约500个文档对,约1.3万个句子对)和网络领域语料(约150个对齐文档,约2000个对齐句子对)。此外,我们正在开发一个网络爬取工具,并探索自动对齐方法,以促进非对齐及未来发布的平行文本的整合。通过这一方法,我们正动态扩充网络领域语料库,目前其规模已扩展至约750个文档对和约3500个对齐句子对。实验表明,利用 DEplain 训练基于 Transformer 的序列到序列(seq2seq)文本简化模型,能够取得令人鼓舞的性能表现。我们已将该语料库、适用于德语的改进对齐方法、网络爬取工具以及训练好的模型公开发布,详见:https://github.com/rstodden/DEPlain


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供