11일 전

합성 데이터를 활용한 비지도 사전 훈련을 통한 신경망 문법 오류 수정 시스템

{Marcin Junczys-Dowmunt, Roman Grundkiewicz, Kenneth Heafield}
합성 데이터를 활용한 비지도 사전 훈련을 통한 신경망 문법 오류 수정 시스템
초록

신경망 문법 오류 수정(Neural Grammatical Error Correction, GEC)에서 데이터 부족 문제를 해결하기 위해 상당한 노력이 기울여져 왔다. 본 연구에서는 스펠체커에서 추출한 혼동 집합(confusion sets)을 기반으로 한 간단하면서도 놀라울 정도로 효과적인 비지도 합성 오류 생성 방법을 제안한다. 이 방법을 통해 훈련 데이터의 양을 증가시킨다. 생성된 합성 데이터를 사용하여 Transformer 시퀀스-투-시퀀스 모델을 사전 훈련한 결과, 진정한 오류 레이블이 부여된 데이터로 훈련된 강력한 베이스라인을 초월하는 성능을 달성하였으며, 진정한 오류 레이블이 거의 없는 환경에서도 실용적인 GEC 시스템 개발이 가능하게 하였다. 개발된 시스템은 BEA19 공동 과제에서 1위를 차지하였으며, 제한된 자원(restricted) 트랙과 저자원(low-resource) 트랙에서 각각 W&I+LOCNESS 테스트 세트 기준으로 F$_{0.5}$ 점수 69.47과 64.24를 기록하였다. 대표적인 CoNLL 2014 테스트 세트에서는 제출된 시스템이 64.16 M{mbox{$^2$}}의 최상위 성능을 기록하였으며, NUCLE 및 Lang-8 데이터로 훈련된 제약 조건 하의 시스템은 61.30 M{mbox{$^2$}}의 성능을 보였다.

합성 데이터를 활용한 비지도 사전 훈련을 통한 신경망 문법 오류 수정 시스템 | 최신 연구 논문 | HyperAI초신경