
要約
文法誤り訂正は、公開されている並行コーパスが限られているため、低リソースのシーケンス・ツー・シーケンス課題とみなすことができます。この課題に対処するために、まず現実的なノイジング関数を使用して大規模な未注釈コーパスの誤ったバージョンを生成します。生成された並行コーパスはその後、Transformerモデルの事前学習に使用されます。さらに、転移学習を順次適用することで、これらのモデルをテストセットのドメインとスタイルに適応させます。コンテキスト対応型のニューラルスペルチェッカーと組み合わせることで、当システムはACL 2019 BEA共有タスクにおける制約付きおよび低リソーストラックで競争力のある結果を達成しました。再現性のために、当方ではすべてのコードと資料を公開しています。