2ヶ月前

BARTpho: ベトナム語用の事前学習済みシーケンス・ツー・シーケンスモデル

Nguyen Luong Tran; Duong Minh Le; Dat Quoc Nguyen

要約

私たちは、BARTphoの2つのバージョン、BARTpho-シラブルとBARTpho-ワードを発表します。これらは、ベトナム語向けに事前学習された最初の公開大規模単一言語のシーケンス・ツー・シーケンスモデルです。BARTphoは、「large」アーキテクチャと、シーケンス・ツー・シーケンスデノイジングオートエンコーダであるBARTの事前学習スキームを使用しています。そのため、生成型NLPタスクに特に適しています。ベトナム語の要約タスクにおいて、競合するmBARTとの比較実験を行い、以下の結果を示しました：自動評価および人間評価の両方で、BARTphoが強力な基準モデルであるmBARTを上回り、最先端の性能を向上させています。さらに、ベトナム語の大文字化と句読点復元タスクにおいても、BARTphoとmBARTを評価し比較した結果、これらの2つのタスクでもBARTphoがmBARTよりも効果的であることが確認されました。生成型ベトナム語NLPタスクの将来の研究や応用を促進するために、私たちはBARTphoを公開します。私たちのBARTphoモデルは以下のURLから入手可能です：https://github.com/VinAIResearch/BARTpho