2달 전

FCGEC: 중국어 문법 오류 교정을 위한 세부 구분 말뭉치

Lvxiaowei Xu; Jianwang Wu; Jiawei Peng; Jiayu Fu; Ming Cai
FCGEC: 중국어 문법 오류 교정을 위한 세부 구분 말뭉치
초록

문법 오류 수정(Grammatical Error Correction, GEC)은 최근 자동 수정 및 교정 시스템에서 널리 적용되고 있습니다. 그러나 중국어 GEC의 경우, 본인 화자들의 범주와 규모 면에서 고질적인 데이터 부족으로 인해 아직 성숙하지 않은 상태입니다. 본 논문에서는 문법 오류를 감지, 식별, 수정하기 위한 세부 분석 코퍼스인 FCGEC를 제시합니다. FCGEC는 공립 학교 중국어 시험의 다중 선택 문제에서 주로 수집된 41,340개의 문장으로 구성된 인간이 주석을 단 다중 참조 코퍼스입니다. 또한, 저원천(low-resource) 환경에서 문법 오류를 수정하기 위한 Switch-Tagger-Generator(STG) 기준 모델을 제안합니다. 다른 GEC 기준 모델들과 비교하여 실험 결과는 STG가 우리의 FCGEC에서 더 우수한 성능을 보임을 입증합니다. 그러나 기준 모델과 인간 사이에는 여전히 큰 차이가 존재하며, 이는 향후 모델들이 이를 극복하도록 장려하고 있습니다.

FCGEC: 중국어 문법 오류 교정을 위한 세부 구분 말뭉치 | 최신 연구 논문 | HyperAI초신경