CCMT 2019-BSTC 语音翻译语料库

数据集下载 磁力链 下载帮助

BSTC 全称 Baidu Speech Translation Corpus,是一个大型自动同声传译数据集, 用于自动同声传译系统的构建。

该语料库分为训练集、开发集和测试集 3 个子集,每个子集包括:

-声音信号文件,命名为 baidu_XX.wav

-描述文件,包括每个声音信号的描述信息,每个语句由 JSON 格式编码

-补充文档,包括演讲和报告的详细介绍

2 做种 0 下载 210 已完成
  • CCMT_2019_BSTC/README.md 1.14 KB
  • CCMT_2019_BSTC/README.txt 1.14 KB
  • CCMT_2019_BSTC/data/Train_sample.zip 111.89 MB
  • CCMT_2019_BSTC/data/development_data.zip 136.65 MB
  • CCMT_2019_BSTC/data/training_data.zip 4.27 GB