
摘要
我们介绍了BARTpho的两个版本,即BARTpho-音节(syllable)和BARTpho-单词(word),这是首批为越南语预训练的公开大规模单语序列到序列模型。BARTpho采用了“大型”架构和序列到序列去噪自编码器BART的预训练方案,因此特别适用于生成式自然语言处理任务。我们进行了实验,将我们的BARTpho与其竞争对手mBART在越南语文本摘要这一下游任务上进行比较,结果显示:无论是自动评估还是人工评估,BARTpho均优于强大的基线模型mBART,并提升了当前的最佳水平。此外,我们在越南语大写字母和标点符号恢复任务上进一步评估和比较了BARTpho和mBART,发现BARTpho在这两项任务中也比mBART更为有效。为了促进未来生成式越南语自然语言处理任务的研究和应用,我们公开发布了BARTpho。我们的BARTpho模型可在https://github.com/VinAIResearch/BARTpho 获取。