7일 전

알리바바, IJCNLP-2017 태스크 1: 중국어 문법 오류 진단 태스크를 위한 LSTMs에 문법적 특징 임베딩

{Linlin Li, Pengjun Xie, Yi Yang, Luo Si, Jun Tao, Guangwei Xu}
알리바바, IJCNLP-2017 태스크 1: 중국어 문법 오류 진단 태스크를 위한 LSTMs에 문법적 특징 임베딩
초록

이 논문은 IJCNLP 2017 공동 과제 1인 중국어 문법 오류 진단(CGED)에 대한 알리바바 NLP 팀의 시스템을 소개한다. 이 과제는 중복 단어(R), 누락 단어(M), 부적절한 단어 선택(S), 어순 오류(W)의 네 가지 유형의 문법 오류를 진단하는 것을 목표로 한다. 본 연구에서는 이 문제를 시퀀스 태깅 문제로 간주하고, 수작업 특징을 설계하여 해결하였다. 제안하는 시스템은 주로 LSTM-CRF 모델에 기반하며, 성능 향상을 위해 3가지 앙상블 전략을 적용하였다. 오류 식별 수준과 오류 위치 수준에서 모두 가장 높은 F1 점수를 기록하였으며, 특히 가장 어려운 위치 수준에서 모든 평가 지표에서 최고의 성능을 달성하였다.