il y a 2 mois

BARTpho : Modèles pré-entraînés séquence-à-séquence pour le vietnamien

Nguyen Luong Tran; Duong Minh Le; Dat Quoc Nguyen

Résumé

Nous présentons BARTpho avec deux versions, BARTpho-syllabe et BARTpho-mot, qui sont les premiers modèles monolingues de grande échelle pré-entraînés pour le vietnamien. BARTpho utilise l'architecture « large » et le schéma de pré-entraînement de l'autoencodeur débruiteur séquence-à-séquence BART, ce qui le rend particulièrement adapté aux tâches de génération en traitement du langage naturel (NLP). Nous menons des expériences pour comparer notre BARTpho à son concurrent mBART sur une tâche descendante de résumé de texte vietnamien et montrons que : tant dans les évaluations automatiques que manuelles, BARTpho surpasse la forte référence mBART et améliore l'état de l'art. Nous évaluons également et comparons BARTpho et mBART sur les tâches de restauration de la majuscule et de la ponctuation vietnamiennes, et constatons que BARTpho est plus efficace que mBART sur ces deux tâches. Nous mettons publiquement à disposition BARTpho afin de faciliter les recherches futures et les applications des tâches génératives en NLP vietnamien. Nos modèles BARTpho sont disponibles à l'adresse suivante : https://github.com/VinAIResearch/BARTpho