16日前

エンコーダ-デコーダモデルは、文法的誤り訂正において事前学習されたマスク言語モデルの恩恵を受けることができる

Masahiro Kaneko, Masato Mita, Shun Kiyono, Jun Suzuki, Kentaro Inui

要約

本稿では、文法的誤り訂正（GEC）タスクに、事前学習されたマスク言語モデル（MLM）であるBERTのようなモデルを効果的に統合する方法について検討する。この問いに対する答えは、一見直感的なものに思えるかもしれないが、実際にはそれほど単純ではない。これまでのMLMをエンコーダデコーダ（EncDec）モデルに組み込む手法には、GECに適用した際に潜在的な欠点が存在するためである。例えば、GECモデルの入力データの分布は、MLMの事前学習に用いられたコーパスの分布と著しく異なる場合がある（誤りを含む、不自然な表現など）。しかし、従来の手法ではこの問題に対処されていない。我々の実験結果から、提案する手法がMLMの効果を最大限に引き出していることが示された。具体的には、まず与えられたGECコーパスでMLMをファインチューニングし、その出力をGECモデルの追加特徴として用いる方法である。この最良のモデルは、BEA-2019およびCoNLL-2014のベンチマークにおいて、最先端の性能を達成した。本研究のコードは、以下のURLで公開されている：https://github.com/kanekomasahiro/bert-gec。