我们从互联网上的公开数据源收集数据,并将其分类至不同类别,每类均标注有特定的语言风格。总计包含330万对英越文文本,涵盖从单句到段落的多种文本形式。使用本数据集训练的模型在一组多样化的文本来源上,性能优于Google Translate。在IWSLT'15评测中,该模型取得了37.84的BLEU分数。