2ヶ月前
SynGEC: 構文強化型文法誤り訂正と特化されたGEC指向パーザの利用
Yue Zhang; Bo Zhang; Zhenghua Li; Zuyi Bao; Chen Li; Min Zhang

要約
本研究では、依存構文情報を効果的にGECモデルのエンコーダ部分に組み込むための構文強化型文法誤り訂正(GEC)手法であるSynGECを提案します。このアイデアの主要な課題は、市販のパーサーが文法的に不正確な文章を処理する際に信頼性が低いことです。この課題に対処するために、並列GEC訓練データを中核として、GEC向けのカスタマイズされたパーサー(GOPar)の構築を提案します。まず、文法的な誤りと構文を統一した木構造で表現できる拡張された構文表現スキームを設計しました。次に、ターゲットとなる正しい文章の木構造を射影することで、ソース側の不正確な文章の解析木を得ました。最後に、このような射影された木を使用してGOParを訓練しました。GECにおいては、GOParによって生成されるソース側の構文情報をグラフ畳み込みネットワークでエンコードし、Transformerエンコーダの出力と融合させます。主流の英語および中国語GECデータセットでの実験結果から、提案したSynGEC手法が強力な基準モデルに対して一貫して大幅に優れており、競争力のある性能を達成していることが示されました。当該研究におけるコードとデータはすべて公開されており、https://github.com/HillZhang1999/SynGEC からアクセスできます。注:文中の人名「Hill Zhang」はそのまま表記しています。また、「graph convolution network」は一般的に「グラフ畳み込みネットワーク」と訳されます。