11일 전

LM-Critic: 비지도 문법 오류 수정을 위한 언어 모델

Michihiro Yasunaga, Jure Leskovec, Percy Liang
LM-Critic: 비지도 문법 오류 수정을 위한 언어 모델
초록

문법 오류 수정(Grammatical Error Correction, GEC) 모델을 훈련하기 위해서는 문법적으로 틀린 문장과 올바른 문장의 쌍이 레이블링된 데이터 세트가 필요하지만, 이러한 쌍을 수동으로 레이블링하는 것은 비용이 매우 크다. 최근 Break-It-Fix-It (BIFI) 프레임워크는 레이블링된 예시 없이도 손상된 프로그램을 복구하는 방법을 학습하는 데 강력한 성과를 보여주었으나, 이는 예시가 유효한지 여부를 판단하는 완벽한 비평가(예: 컴파일러)를 전제로 한다. 그러나 GEC 과제에서는 그러한 완벽한 비평가가 존재하지 않는다. 본 연구에서는 사전 훈련된 언어 모델(Language Model, LM)을 활용하여 LM-Critic를 정의하는 방법을 제시한다. 이 LM-Critic는 특정 문장이 문법적으로 올바른 것으로 판단되게 하기 위해, 해당 문장이 그 지역적 변형들보다 더 높은 확률을 언어 모델에 의해 부여받는지를 기준으로 판단한다. 본 연구는 이 LM-Critic와 BIFI 프레임워크를 대규모의 레이블 없는 문장들과 함께 활용하여, 실제적인 문법적으로 틀린/문법적으로 올바른 문장 쌍을 자가 부트스트래핑하여 수정기 모델을 훈련한다. 제안한 방법은 여러 도메인(ConLL-2014, BEA-2019, GMEG-wiki, GMEG-yahoo)의 GEC 데이터셋에서 평가되었으며, 비지도 학습 설정에서 +7.7의 F0.5 점수 향상, 지도 학습 설정에서 +0.5의 F0.5 점수 향상을 기록하여 기존의 방법들을 능가함을 보였다.

LM-Critic: 비지도 문법 오류 수정을 위한 언어 모델 | 최신 연구 논문 | HyperAI초신경