2달 전
SynGEC: 구문 강화 문법 오류 수정을 위한 맞춤형 GEC 지향 파서
Yue Zhang; Bo Zhang; Zhenghua Li; Zuyi Bao; Chen Li; Min Zhang

초록
본 연구는 문법 오류 수정(GEC) 모델의 인코더 부분에 종속 구문 정보를 효과적으로 통합하는 구문 강화형 문법 오류 수정 접근 방식인 SynGEC를 제안합니다. 이 아이디어의 핵심 난관은 기존 파서가 문법적으로 올바르지 않은 문장을 처리할 때 신뢰성이 부족하다는 점입니다. 이 문제를 해결하기 위해, 우리는 병렬 GEC 훈련 데이터를 기반으로 GEC에 특화된 파서(GOPar)를 구축하는 방법을 제안합니다. 먼저, 문법적 오류와 구문을 통합된 트리 구조로 표현할 수 있는 확장된 구문 표현 체계를 설계하였습니다. 그런 다음, 대상 정확한 문장의 트리를 투영하여 원본 불정확한 문장의 파싱 트리를 얻었습니다. 마지막으로, 이러한 투영된 트리를 사용하여 GOPar를 훈련시켰습니다. GEC에 대해서는 GOPar가 생성한 소스 측 구문 정보를 그래프 컨볼루션 네트워크를 통해 인코딩하고, 이를 Transformer 인코더의 출력과 융합하였습니다. 주요 영어 및 중국어 GEC 데이터셋에서 수행한 실험 결과, 제안된 SynGEC 접근 방식이 강력한 기준 모델들을 일관되게 크게 능가하며 경쟁력 있는 성능을 달성함을 보여주었습니다. 본 연구의 코드와 데이터는 모두 https://github.com/HillZhang1999/SynGEC에서 공개적으로 이용 가능합니다.