17日前

MTet:英語およびベトナム語向けの多ドメイン翻訳

Chinh Ngo, Trieu H. Trinh, Long Phan, Hieu Tran, Tai Dang, Hieu Nguyen, Minh Nguyen, Minh-Thang Luong
MTet:英語およびベトナム語向けの多ドメイン翻訳
要約

英語-ベトナム語翻訳を対象とした、公開されている最大規模の並列コーパス「MTet」を紹介する。MTetは、420万件の高品質な学習用文対と、ベトナムの研究コミュニティによって精査されたマルチドメインテストセットから構成されている。これまでの英語-ベトナム語翻訳に関する研究と組み合わせることで、既存の並列データセットを620万文対まで拡張した。また、英語およびベトナム語向けの最初の事前学習モデル「EnViT5」も公開する。これらのリソースを統合した本モデルは、翻訳のBLEUスコアにおいて、従来の最先端モデルを最大2ポイント上回る性能を達成しつつ、モデルサイズは1.6倍小さくなっている。

MTet:英語およびベトナム語向けの多ドメイン翻訳 | 最新論文 | HyperAI超神経