Command Palette

Search for a command to run...

4ヶ月前

合成データを用いた教師なし事前学習を備えたニューラル文法誤り訂正システム

{Marcin Junczys-Dowmunt Roman Grundkiewicz Kenneth Heafield}

合成データを用いた教師なし事前学習を備えたニューラル文法誤り訂正システム

要約

ニューラル文法誤り訂正(GEC)におけるデータスパース問題に対処するため、多くの努力がなされてきた。本研究では、スペルチェッカーから抽出した混同セット(confusion sets)を基にした、シンプルかつ驚くほど有効な非教師あり合成誤り生成手法を提案する。この手法により、学習データ量を大幅に増加させることができる。生成された合成データを用いてTransformerのシーケンス・トゥ・シーケンスモデルを事前学習させたところ、本物の誤りアノテーション付きデータで学習された強力なベースラインを上回る性能を達成しただけでなく、実際の誤りアノテーションデータが極めて限られた環境下でも実用的なGECシステムの構築を可能とした。開発したシステムは、BEA19共有タスクにおいて、制限付きトラックと低リソーストラックの両方で、W&I+LOCNESSテストセット上でそれぞれ69.47および64.24のF0.5_{0.5}0.5を達成し、優勝を果たした。また、広く用いられているCoNLL 2014テストセットでは、提出されたシステムで64.16 M{mbox{2^22}}、NUCLEおよびLang-8データで学習された制約付きシステムで61.30 M{mbox{2^22}}という、現在の最先端(SOTA)の結果を報告した。

ベンチマーク

ベンチマーク方法論指標
grammatical-error-correction-on-bea-2019-testTransformer
F0.5: 69.5

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
合成データを用いた教師なし事前学習を備えたニューラル文法誤り訂正システム | 論文 | HyperAI超神経