我々はインターネット上の公開ソースからデータを収集し、それぞれを特定の言語スタイルでラベル付けされた異なるカテゴリに分類する。合計で英語とベトナム語のテキストペアが330万組存在し、単一の文から段落まで多様な長さをカバーしている。本データセットで学習されたモデルは、選択された多様なテキストソースにおいてGoogle翻訳を上回る性能を発揮した。IWSLT'15の評価では、BLEUスコア37.84を達成した。