
초록
문법 오류 수정(GEC) 모델이 참조 또는 골드 표준 수정 사항이 제공되지 않을 경우 그 모델이 수행한 수정 품질을 평가하기 위해 품질 추정 모델이 개발되어 왔다. 이상적인 품질 추정기는 여러 GEC 시스템의 출력을 통합하는 데 활용될 수 있으며, 각 GEC 기본 시스템이 제안한 모든 수정 사항의 합집합에서 가장 우수한 수정 부분의 하위 집합을 선택할 수 있다. 그러나 기존의 GEC 품질 추정 모델들이 좋은 수정과 나쁜 수정을 충분히 구분하지 못한다는 점을 발견하였으며, 이로 인해 시스템 통합에 활용할 경우 F₀.₅ 점수가 낮게 나타났다. 본 논문에서는 수정된 문장의 품질을 보다 정확히 추정할 수 있는 새로운 최신 기술 수준의 품질 추정 모델인 GRECO를 제안한다. 이 모델은 수정된 문장의 F₀.₅ 점수와 더 높은 상관관계를 보이며, 더 정확한 품질 추정을 가능하게 한다. 이를 통해 통합된 GEC 시스템이 더 높은 F₀.₅ 점수를 달성할 수 있다. 또한, 다양한 일반성 수준을 갖는 GEC 품질 추정 모델을 활용한 시스템 통합을 위한 세 가지 방법을 제안한다: 모델 독립형, 투표 편향을 고려한 모델 독립형, 그리고 모델 종속형 방법이다. 통합된 GEC 시스템은 CoNLL-2014 테스트 세트와 BEA-2019 테스트 세트에서 기존 최고 성능을 초월하며, 지금까지 발표된 바 중 가장 높은 F₀.₅ 점수를 기록하였다.