OpenMantra 漫画机器翻译评估数据集

该数据集是一个针对日文漫画的机器翻译评估数据集,包含五部不同风格(幻想、爱情、战斗、悬疑、生活)的漫画,数据集中共包含 1593 个句子,848 个场景画面和 214 页漫画,由东京大学 Mantra 团队发布。 数据格式:带注释的 JSON 文件和原始图像

WMT 2015 French/English parallel texts 法语/英语平行文本数据集

WMT 2015 French/English parallel texts 是用于训练翻译模型的法语/英语平行文本数据集,它拥有超过 2000 万条法语与英语句子。 本数据集由 Chris Callison-Burch 创建,他在抓取上百万个网页后通过一组简单的启发式算法将法语…

European Parliament Proceedings Parallel Corpus 1996-2011 统计机器翻译语料库

European Parliament Proceedings Parallel Corpus 1996-2011 数据集是一个用于统计机器翻译的语料库,其中 Europarl 平行语料库来源于欧洲议会的程序,它包括 21 种欧洲语言版本: 罗马语(法语,意大利语,西班牙语,葡萄…