12일 전
문법 오류 탐지에 있어서 오류 및 문법적 타당성에 특화된 단어 임베딩 사용
{Yuya Sakaizawa, Masahiro Kaneko, Mamoru Komachi}

초록
본 연구에서는 문법 오류 탐지 성능을 향상시키기 위해 문법적 타당성과 오류 패턴을 고려한 단어 임베딩을 학습하는 방법을 제안한다. 기존 대부분의 단어 임베딩 학습 알고리즘은 단어의 구문적 맥락만을 모델링하기 때문에, 분류기는 오류가 있는 단어와 올바른 단어를 유사한 입력으로 취급하게 된다. 본 연구는 학습자 오류를 고려함으로써 맥락 정보의 문제를 해결한다. 구체적으로, 문법 오류 패턴을 활용하는 모델과 타겟 단어의 문법적 타당성을 고려하는 모델 두 가지를 제안한다. 우리는 주석된 오류 태그를 기반으로 n-그램 시퀀스의 문법적 타당성을 판단하고, 대규모 학습자 문장집에서 문법 오류 패턴을 추출하여 단어 임베딩에 활용한다. 실험 결과, 본 연구에서 제안한 단어 임베딩으로 초기화된 양방향 LSTM 모델이 First Certificate in English 데이터셋에서 영어 문법 오류 탐지 작업에서 기존 최고 성능을 크게 상회하는 정확도를 달성하였다.