11일 전
우크라이나어 문법 오류 수정을 위한 저자원 접근법
{and Dan Roth, Alla Rozovskaya, Frank Palma Gomez}

초록
우리는 우크라이나어 문법 오류 수정(shared task)에 참가한 우리 시스템을 제안한다. 본 연구에서는 영어 및 저자원 언어의 오류 수정에 활용된 대규모 사전 훈련된 언어 모델과 합성 데이터를 활용하는 두 가지 접근 방식을 구현하였다. 첫 번째 접근 방식은 다국어 대규모 언어 모델(mT5)을 두 단계에 걸쳐 미세조정(fine-tuning)하는 방식으로, 먼저 합성 데이터에서, 그 후 실제 정답 데이터(gold data)에서 각각 미세조정한다. 두 번째 접근 방식은 합성 데이터에서 사전 훈련된(더 작지만) seq2seq Transformer 모델을 실제 정답 데이터에서 미세조정하는 것이다. 본 연구에서 제안한 mT5 기반 모델은 ‘GEC만’ 트랙에서 1위를 기록하였으며, ‘GEC+유창성(Fluency)’ 트랙에서는 매우 근접한 2위를 차지하였다. 본 연구의 두 가지 핵심 기여는 (1) 합성 데이터에서 먼저, 이후 실제 정답 데이터에서 순차적으로 미세조정하는 단계별 미세조정 전략; 그리고 (2) 기존의 노이지피케이션(noisification) 기법을 보완하기 위해 순환적 기계 번역(roundtrip machine translation) 기반의 고품질 오염(노이즈 생성) 방법의 도입이다.