
要約
文法誤り訂正(GEC)は最近、自動訂正および校正システムに広く応用されています。しかし、ネイティブスピーカーによる高品質データの種類と量が限られているため、中国語のGECは未だ発展途上です。本論文では、文法誤りを検出、特定、訂正するための微細化コーパスFCGECを提案します。FCGECは、公立学校の中国語試験における選択問題から主に収集された41,340文で構成され、複数の参照を持つ人間によって注釈付けられたコーパスです。さらに、低リソース環境での文法誤り訂正のためにSwitch-Tagger-Generator(STG)ベースラインモデルを提案します。他のGECベンチマークモデルと比較して、実験結果はSTGが当社のFCGECにおいて優れた性能を示していることを示しています。ただし、ベンチマークモデルと人間との間に大きな差異が存在しており、これにより将来のモデルがそのギャップを埋めることが期待されます。