6ヶ月前

自然言語処理

自然言語処理

Andrii Fedorych Andrii Shportko Artem Yushko Maksym Bondarenko

概要

文法的誤り訂正（Grammatical Error Correction, GEC）のタスクは英語に対して広く研究されてきたが、ウクライナ語をはじめとする低リソース言語への応用は依然として未解決の課題である。本論文では、ウクライナ語向けに系列タギングモデルおよびニューラル機械翻訳モデルを構築するとともに、これらのシステムを補強するためのアルゴリズム的訂正ルールのセットも開発した。さらに、人間が生成したような自然な誤りを含む高品質な合成データを生成するための手法をウクライナ語用に開発した。最終的に、既存のUA-GECコーパスを拡張するための合成データの最適な組み合わせを特定し、新たに確立されたUA-GECベンチマークにおいて、0.663のF0.5スコアという最先端の成果を達成した。本研究で開発したコードおよび学習済みモデルは、GitHubおよびHuggingFaceで公開される予定である。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

自然言語処理

自然言語処理

Andrii Fedorych Andrii Shportko Artem Yushko Maksym Bondarenko

概要

文法的誤り訂正（Grammatical Error Correction, GEC）のタスクは英語に対して広く研究されてきたが、ウクライナ語をはじめとする低リソース言語への応用は依然として未解決の課題である。本論文では、ウクライナ語向けに系列タギングモデルおよびニューラル機械翻訳モデルを構築するとともに、これらのシステムを補強するためのアルゴリズム的訂正ルールのセットも開発した。さらに、人間が生成したような自然な誤りを含む高品質な合成データを生成するための手法をウクライナ語用に開発した。最終的に、既存のUA-GECコーパスを拡張するための合成データの最適な組み合わせを特定し、新たに確立されたUA-GECベンチマークにおいて、0.663のF0.5スコアという最先端の成果を達成した。本研究で開発したコードおよび学習済みモデルは、GitHubおよびHuggingFaceで公開される予定である。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています