European Parliament Proceedings Parallel Corpus 1996-2011 统计机器翻译语料库

日期

6 年前

大小

3.75 GB

机构

University of Edinburgh

发布地址

www.statmt.org

European Parliament Proceedings Parallel Corpus 1996-2011 数据集是一个用于统计机器翻译的语料库,其中 Europarl 平行语料库来源于欧洲议会的程序,它包括 21 种欧洲语言版本:

  • 罗马语(法语,意大利语,西班牙语,葡萄牙语,罗马尼亚语)
  • 日耳曼语(英语,荷兰语,德语,丹麦语,瑞典语)
  • Slavik(保加利亚语,捷克语,波兰语,斯洛伐克语,斯洛文尼亚语)
  • Finni-Ugric(芬兰语,匈牙利语,爱沙尼亚语)
  • 波罗的海语(拉脱维亚语,立陶宛语)
  • 希腊语

European Parliament Proceedings Parallel Corpus 1996-2011 数据集最初由苏格兰爱丁堡大学信息学院于 2005 年发布,主要发布人为 Philipp Koehn 。

该数据集于 2012 年发布第 7 版,相关论文有《Europarl: A Parallel Corpus for Statistical Machine Translation》

European_Parliament_Proceedings_Parallel_Corpus_1996-2011.torrent

做种 3

下载中 0

已完成 796

总下载 1,364

  • European_Parliament_Proceedings_Parallel_Corpus_1996-2011/
    • README.md
      1.55 KB
    • README.txt
      3.11 KB
      • data/
        • bg-en.tgz
          40.62 MB
        • cs-en.tgz
          99.8 MB
        • da-en.tgz
          278.8 MB
        • de-en.tgz
          467.42 MB
        • el-en.tgz
          611.8 MB
        • es-en.tgz
          797.83 MB
        • et-en.tgz
          854.43 MB
        • europarl.tgz
          2.3 GB
        • fi-en.tgz
          2.47 GB
        • fr-en.tgz
          2.66 GB
        • hu-en.tgz
          2.72 GB
        • it-en.tgz
          2.9 GB
        • lt-en.tgz
          2.95 GB
        • lv-en.tgz
          3.01 GB
        • nl-en.tgz
          3.2 GB
        • pl-en.tgz
          3.25 GB
        • pt-en.tgz
          3.44 GB
        • ro-en.tgz
          3.47 GB
        • sk-en.tgz
          3.53 GB
        • sl-en.tgz
          3.58 GB
        • sv-en.tgz
          3.75 GB