18일 전
PHMOSpell: 음운 및 형태학 지식을 기반으로 한 중국어 철자 검사
{Jing Xiao, Shaojun Wang, Minchuan Chen, ZhiYu Zhang, Weiwei Jiang, Junjie Li, Li Huang}

초록
중국어 철자 검사(CSC)는 중국어 문자의 복잡한 특성으로 인해 도전적인 과제이다. 통계에 따르면, 대부분의 중국어 철자 오류는 음성적 오류 또는 시각적 오류에 속한다. 그러나 기존의 방법들은 중국어 문자의 음운론적 및 형태론적 지식을 거의 활용하지 않거나, 그 유사성을 모델링하기 위해 외부 자원에 크게 의존하는 경향이 있다. 이러한 문제를 해결하기 위해, 다중 모달 정보를 활용하여 CSC 성능을 향상시키는 새로운 엔드투엔드 학습 가능한 모델인 PHMOSpell을 제안한다. 구체적으로, 음성 모달리티에서 피니음(pinyin) 표현과 시각 모달리티에서 글리프(glyph) 표현을 각각 도출한 후, 설계된 적응형 게이팅 메커니즘을 통해 사전 학습된 언어 모델에 통합한다. 효과성을 검증하기 위해 종합적인 실험과 아블레이션 테스트를 수행하였다. 세 가지 공유 벤치마크에서의 실험 결과는 제안한 모델이 기존 최고 성능 모델들을 일관되게 능가함을 보여준다.