
문법 오류 수정(Grammatical Error Correction, GEC) 모델을 훈련하기 위해서는 문법적으로 틀린 문장과 올바른 문장의 쌍이 레이블링된 데이터 세트가 필요하지만, 이러한 쌍을 수동으로 레이블링하는 것은 비용이 매우 크다. 최근 Break-It-Fix-It (BIFI) 프레임워크는 레이블링된 예시 없이도 손상된 프로그램을 복구하는 방법을 학습하는 데 강력한 성과를 보여주었으나, 이는 예시가 유효한지 여부를 판단하는 완벽한 비평가(예: 컴파일러)를 전제로 한다. 그러나 GEC 과제에서는 그러한 완벽한 비평가가 존재하지 않는다. 본 연구에서는 사전 훈련된 언어 모델(Language Model, LM)을 활용하여 LM-Critic를 정의하는 방법을 제시한다. 이 LM-Critic는 특정 문장이 문법적으로 올바른 것으로 판단되게 하기 위해, 해당 문장이 그 지역적 변형들보다 더 높은 확률을 언어 모델에 의해 부여받는지를 기준으로 판단한다. 본 연구는 이 LM-Critic와 BIFI 프레임워크를 대규모의 레이블 없는 문장들과 함께 활용하여, 실제적인 문법적으로 틀린/문법적으로 올바른 문장 쌍을 자가 부트스트래핑하여 수정기 모델을 훈련한다. 제안한 방법은 여러 도메인(ConLL-2014, BEA-2019, GMEG-wiki, GMEG-yahoo)의 GEC 데이터셋에서 평가되었으며, 비지도 학습 설정에서 +7.7의 F0.5 점수 향상, 지도 학습 설정에서 +0.5의 F0.5 점수 향상을 기록하여 기존의 방법들을 능가함을 보였다.