11 天前

低资源场景下的语法错误纠正

Jakub Náplava, Milan Straka
低资源场景下的语法错误纠正
摘要

英语语法错误修正是一个长期研究的课题,已有众多系统和数据集问世。然而,针对其他语言的语法错误修正研究仍十分有限。本文提出了一项针对捷克语的新型语法错误修正数据集——AKCES-GEC。随后,我们在捷克语、德语和俄语上进行了实验,结果表明,通过使用合成的平行语料库,基于Transformer的神经机器翻译模型在这些数据集上均取得了新的最先进(state-of-the-art)性能。AKCES-GEC数据集以CC BY-NC-SA 4.0许可协议发布,可通过以下链接获取:https://hdl.handle.net/11234/1-3057;相关GEC模型的源代码可在GitHub上获取:https://github.com/ufal/low-resource-gec-wnut2019。

低资源场景下的语法错误纠正 | 最新论文 | HyperAI超神经