BARTpho: Vorkodierte Sequenz-zu-Sequenz-Modelle für Vietnamesisch

Wir präsentieren BARTpho in zwei Versionen, BARTpho-Silbe und BARTpho-Wort, welche die ersten öffentlich verfügbaren großskaligen einlinguistischen Sequenz-zu-Sequenz-Modelle sind, die für das Vietnamesische vorgeschaltet trainiert wurden. BARTpho nutzt die „large“-Architektur und das Vortrainingsverfahren des sequenzbasierten Denoise-Autoencoders BART, wodurch es besonders für generative NLP-Aufgaben geeignet ist. Wir führen Experimente durch, um unser BARTpho mit dem Konkurrenten mBART bei einer nachgelagerten Aufgabe der Textzusammenfassung im Vietnamesischen zu vergleichen und zeigen, dass: sowohl in automatischen als auch in manuellen Bewertungen übertrifft BARTpho das starke Baseline-Modell mBART und verbessert den Stand der Technik. Wir bewerten und vergleichen BARTpho und mBART ferner bei den Aufgaben der Wiederherstellung von Großschreibung und Satzzeichen im Vietnamesischen und stellen ebenfalls fest, dass BARTpho bei diesen beiden Aufgaben effektiver ist als mBART. Wir veröffentlichen BARTpho öffentlich, um zukünftige Forschung und Anwendungen generativer vietnamischer NLP-Aufgaben zu fördern. Unsere BARTpho-Modelle sind unter https://github.com/VinAIResearch/BARTpho verfügbar.