11일 전

비지도 문법 오류 수정: 지도 학습 방법과 경쟁 가능한 성능

{Hwee Tou Ng, Yuchen Zhang, Liping Yuan, Hannan Cao}
비지도 문법 오류 수정: 지도 학습 방법과 경쟁 가능한 성능
초록

최첨단 문법 오류 수정(Grammatical Error Correction, GEC) 시스템은 비슷한 문장 쌍(문법적으로 잘못된 문장과 그에 대한 수동으로 수정된 버전)을 사용하는 병렬 학습 데이터에 의존하며, 이러한 데이터를 구축하는 데 비용이 매우 크다. 본 논문에서는 비지도 학습 기반의 GEC 시스템을 구축하기 위해 Break-It-Fix-It(BIFI) 방법을 활용한다. BIFI 프레임워크는 비정형 텍스트로부터 병렬 데이터를 생성하며, 문법 오류를 수정하는 '수정기(Fixer)'와 문장의 문법적 타당성을 예측하는 '비평가(Critic)'를 사용한다. 본 연구에서는 수정기와 비평가를 위한 비지도 학습 방식을 제안하고, 두 모델이 반복적으로 서로를 개선할 수 있도록 하는 알고리즘을 제시한다. 제안한 비지도 GEC 시스템은 영어 및 중국어 GEC 데이터셋에서 평가되었으며, 실험 결과 기존의 비지도 GEC 시스템보다 우수한 성능을 보였으며, 앙상블 기법 없이도 지도 학습 기반의 GEC 시스템과 비교 가능한 성능을 달성하였다. 또한, 레이블링된 학습 데이터와 결합할 경우, CoNLL-2014 및 NLPCC-2018 테스트 세트에서 새로운 최고 성능을 기록하였다.

비지도 문법 오류 수정: 지도 학습 방법과 경쟁 가능한 성능 | 최신 연구 논문 | HyperAI초신경