2달 전
읽기, 듣기, 그리고 보기: 다중 모달 정보 활용이 중국어 철자 검사에 도움을 줍니다.
Heng-Da Xu; Zhongli Li; Qingyu Zhou; Chao Li; Zizhen Wang; Yunbo Cao; Heyan Huang; Xian-Ling Mao

초록
중국어 철자 검사(Chinese Spell Checking, CSC)는 중국어로 작성된 사용자 생성 텍스트에서 잘못된 문자를 감지하고 수정하는 것을 목표로 합니다. 대부분의 중국어 철자 오류는 의미적으로, 발음상으로 또는 형태적으로 유사한 문자의 잘못된 사용에 기인합니다. 이전 연구에서는 이러한 현상을 인식하고 유사성을 활용하여 작업을 수행하려고 시도했습니다. 그러나 이러한 방법들은 either 휴리스틱 또는 수작업으로 만든 혼동 집합(handcrafted confusion sets)을 사용하여 올바른 문자를 예측하였습니다.본 논문에서는 중국어 문자의 다중 모달 정보를 직접 활용하는 중국어 철자 검사기인 ReaLiSe를 제안합니다. ReaLiSe 모델은 (1) 입력 문자의 의미적, 발음적 및 형태적 정보를 포착하고, (2) 이러한 모달에서 얻은 정보를 선택적으로 혼합하여 올바른 출력을 예측함으로써 CSC 작업을 해결합니다. SIGHAN 벤치마크에서 수행한 실험 결과, 제안된 모델이 강력한 기준모델(baselines)보다 크게 우수함을 보여주었습니다.