16일 전
다국어 문법 오류 수정을 위한 간단한 조리법
Sascha Rothe, Jonathan Mallinson, Eric Malmi, Sebastian Krause, Aliaksei Severyn

초록
이 논문은 최첨단 다국어 문법 오류 수정(Grammatical Error Correction, GEC) 모델을 훈련하기 위한 간단한 방법을 제안한다. 우리는 먼저 다국어에 관계없이 적용 가능한 방법을 제안하여 대량의 합성 예제를 생성한다. 두 번째 요소로는 최대 110억 파라미터에 이르는 대규모 다국어 언어 모델을 활용한다. 이러한 모델을 특정 언어에 맞춰 지도 학습 데이터셋으로 미세 조정한 후, 영어, 체코어, 독일어, 러시아어 4개 언어의 GEC 벤치마크에서 기존 최고 성능을 넘어서는 결과를 달성하였다. GEC 분야에 새로운 기준을 설정한 이후, 우리는 ‘cLang-8’ 데이터셋을 공개함으로써 실험 결과의 재현성과 접근성을 높였다. cLang-8는 널리 사용되지만 노이즈가 많은 Lang-8 데이터셋의 타겟을, 우리가 ‘gT5’라 명명한 최고 성능 모델을 이용해 정제함으로써 생성되었다. cLang-8는 기존의 다단계 미세 조정을 포함하는 일반적인 GEC 훈련 파이프라인을 크게 단순화한다. 본 연구에서는 기존에 이미 뛰어난 성능을 보이는 gT5 모델보다 더 높은 정확도를 달성하기 위해, 상용화된 언어 모델을 cLang-8 데이터셋에 단일 미세 조정 단계로 적용하는 것이 효과적임을 실험적으로 입증하였다.