
要約
文法的誤り訂正(Grammatical Error Correction, GEC)のタスクは英語に対して広く研究されてきたが、ウクライナ語をはじめとする低リソース言語への応用は依然として未解決の課題である。本論文では、ウクライナ語向けに系列タギングモデルおよびニューラル機械翻訳モデルを構築するとともに、これらのシステムを補強するためのアルゴリズム的訂正ルールのセットも開発した。さらに、人間が生成したような自然な誤りを含む高品質な合成データを生成するための手法をウクライナ語用に開発した。最終的に、既存のUA-GECコーパスを拡張するための合成データの最適な組み合わせを特定し、新たに確立されたUA-GECベンチマークにおいて、0.663のF0.5スコアという最先端の成果を達成した。本研究で開発したコードおよび学習済みモデルは、GitHubおよびHuggingFaceで公開される予定である。