16일 전
인코더-디코더 모델은 문법 오류 수정에서 사전 훈련된 마스킹 언어 모델로부터 혜택을 볼 수 있다.
Masahiro Kaneko, Masato Mita, Shun Kiyono, Jun Suzuki, Kentaro Inui

초록
본 논문은 BERT와 같은 사전 훈련된 마스킹 언어 모델(Masked Language Model, MLM)을 문법 오류 수정(Grammatical Error Correction, GEC)을 위한 인코더-디코더(Encoder-Decoder, EncDec) 모델에 효과적으로 통합하는 방법을 탐구한다. 이 질문에 대한 답은 예상과는 달리 단순하지 않다. 기존의 MLM을 EncDec 모델에 통합하는 일반적인 방법들은 GEC에 적용될 때 잠재적인 단점이 존재하기 때문이다. 예를 들어, GEC 모델의 입력 데이터 분포는 MLM의 사전 훈련에 사용된 데이터 코퍼스와 크게 다를 수 있다(오류가 많거나 어색한 표현 등). 그러나 기존의 방법들은 이러한 문제를 해결하지 못한다. 우리의 실험 결과에 따르면, 먼저 주어진 GEC 코퍼스로 MLM을 미세 조정(fine-tune)한 후, 그 미세 조정된 MLM의 출력을 GEC 모델의 추가 특징(또는 피처)으로 활용하는 본 연구에서 제안하는 방법이 MLM의 잠재력을 최대한 발휘함을 보였다. 최적의 모델은 BEA-2019 및 CoNLL-2014 벤치마크에서 최신 기준(SOTA, State-of-the-Art) 성능을 달성하였다. 본 연구의 코드는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/kanekomasahiro/bert-gec.