VATEX 视频字幕数据集

VATEX 全称 Video And TEXt,是一个大型多语言视频描述数据集,包括了 41,250 部视频以及 825,000  组中英文字幕。字幕文本中,有超过 206,000 组英汉对应翻译对。 该数据集主要用于: -多语言视频字幕生成 -视频字幕翻译

CCMT 2019-BSTC 语音翻译语料库

BSTC 全称 Baidu Speech Translation Corpus,是一个大型自动同声传译数据集, 用于自动同声传译系统的构建。 该语料库分为训练集、开发集和测试集 3 个子集,每个子集包括: -声音信号文件,命名为 baidu_XX.wav -描述文件,包括每个声音…

OpenMantra 漫画机器翻译评估数据集

该数据集是一个针对日文漫画的机器翻译评估数据集,包含五部不同风格(幻想、爱情、战斗、悬疑、生活)的漫画,数据集中共包含 1593 个句子,848 个场景画面和 214 页漫画,由东京大学 Mantra 团队发布。 数据格式:带注释的 JSON 文件和原始图像

WMT 2015 French/English parallel texts 法语/英语平行文本数据集

WMT 2015 French/English parallel texts 是用于训练翻译模型的法语/英语平行文本数据集,它拥有超过 2000 万条法语与英语句子。 本数据集由 Chris Callison-Burch 创建,他在抓取上百万个网页后通过一组简单的启发式算法将法语…

European Parliament Proceedings Parallel Corpus 1996-2011 统计机器翻译语料库

European Parliament Proceedings Parallel Corpus 1996-2011 数据集是一个用于统计机器翻译的语料库,其中 Europarl 平行语料库来源于欧洲议会的程序,它包括 21 种欧洲语言版本: 罗马语(法语,意大利语,西班牙语,葡萄…