
要約
文法誤り訂正(GEC)モデルが生成した修正内容の品質を、正解(ゴールドスタンダード)の修正が存在しない状況下で評価するための品質推定モデルが開発されている。理想的な品質推定モデルは、複数のGECシステムが出力した修正の合集から、最も適切な修正サブセットを選択することで、複数システムの出力を統合する際に活用できる。しかし、本研究では、既存のGEC品質推定モデルが優れた修正と劣った修正を十分に区別できていないことを発見した。その結果、システム統合に用いた際のF0.5スコアが低くなるという課題が生じていた。本論文では、修正文の品質をより正確に推定できる新たな最先端の品質推定モデル「GRECO」を提案する。GRECOは、修正文のF0.5スコアとの相関係数が高いため、修正文の品質評価において優れた性能を示す。このモデルを用いることで、統合GECシステムのF0.5スコアも向上する。さらに、モデルの一般性に応じて異なる3つの手法を提案する:モデル非依存型、投票バイアスを導入したモデル非依存型、およびモデル依存型のシステム統合手法。これらの手法を用いた統合GECシステムは、CoNLL-2014テストセットおよびBEA-2019テストセットにおいて、既存の最先端手法を上回り、これまでに発表された最高のF0.5スコアを達成した。