European Parliament Proceedings Parallel Corpus 1996-2011 统计机器翻译语料库

下载种子 磁力链 下载帮助

European Parliament Proceedings Parallel Corpus 1996-2011 数据集是一个统计机器翻译语料库。Europarl 平行语料库是从欧洲议会的程序中提取的, 它包括 21 种欧洲语言版本:

  • 罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚语)
  • 日耳曼语(英语,荷兰语,德语,丹麦语,瑞典语)
  • Slavik(保加利亚语,捷克语,波兰语,斯洛伐克语,斯洛文尼亚语)
  • Finni-Ugric(芬兰语,匈牙利语,爱沙尼亚语)
  • 波罗的海语(拉脱维亚语,立陶宛语)
  • 希腊语

European Parliament Proceedings Parallel Corpus 1996-2011 数据集最初于 2005 年由苏格兰爱丁堡大学信息学院发布,主要发布人为 Philipp Koehn,后于 2012 年发布第 7 版,相关论文为 Europarl: A Parallel Corpus for Statistical Machine Translation。

文件名 大小
README.md 1.55 KB
README.txt 1.55 KB
bg-en.tgz 40.61 MB
cs-en.tgz 59.19 MB
da-en.tgz 179 MB
de-en.tgz 188.62 MB
el-en.tgz 144.38 MB
es-en.tgz 186.03 MB
et-en.tgz 56.6 MB
europarl.tgz 1.46 GB
fi-en.tgz 178.16 MB
fr-en.tgz 193.33 MB
hu-en.tgz 58.5 MB
it-en.tgz 187.61 MB
lt-en.tgz 56.01 MB
lv-en.tgz 56.28 MB
nl-en.tgz 189.86 MB
pl-en.tgz 58.84 MB
pt-en.tgz 188.58 MB
ro-en.tgz 36.41 MB
sk-en.tgz 58.51 MB
sl-en.tgz 53.97 MB
sv-en.tgz 170.33 MB

抱歉,暂无相关内容推荐。