11日前

合成データ上で訓練されたモデルのウクライナ語文法誤り訂正に関する比較研究

{Andrii Fedorych, Andrii Shportko, Artem Yushko, Maksym Bondarenko}
合成データ上で訓練されたモデルのウクライナ語文法誤り訂正に関する比較研究
要約

文法的誤り訂正(Grammatical Error Correction, GEC)のタスクは英語に対して広く研究されてきたが、ウクライナ語をはじめとする低リソース言語への応用は依然として未解決の課題である。本論文では、ウクライナ語向けに系列タギングモデルおよびニューラル機械翻訳モデルを構築するとともに、これらのシステムを補強するためのアルゴリズム的訂正ルールのセットも開発した。さらに、人間が生成したような自然な誤りを含む高品質な合成データを生成するための手法をウクライナ語用に開発した。最終的に、既存のUA-GECコーパスを拡張するための合成データの最適な組み合わせを特定し、新たに確立されたUA-GECベンチマークにおいて、0.663のF0.5スコアという最先端の成果を達成した。本研究で開発したコードおよび学習済みモデルは、GitHubおよびHuggingFaceで公開される予定である。

合成データ上で訓練されたモデルのウクライナ語文法誤り訂正に関する比較研究 | 最新論文 | HyperAI超神経