2달 전
Glyce: 중국 한자 표현을 위한 글리프 벡터
Yuxian Meng; Wei Wu; Fei Wang; Xiaoya Li; Ping Nie; Fan Yin; Muyu Li; Qinghong Han; Xiaofei Sun; Jiwei Li

초록
중국어와 같은 표의 문자 언어에 대한 NLP 작업이 해당 언어의 글자 정보를 활용함으로써 이점을 얻을 수 있다는 것은 직관적으로 이해할 수 있습니다. 그러나 글자에 풍부한 상형 문자 증거가 부족하고, 표준 컴퓨터 비전 모델이 문자 데이터에서 약한 일반화 능력을 보이는 탓에, 효과적인 글자 정보 활용 방법은 아직 발견되지 않았습니다. 본 논문에서는 이러한 간극을 메우기 위해 중국어 문자 표현을 위한 글리프-벡터(Glyce)를 제시합니다. 우리는 세 가지 주요 혁신을 도입하였습니다: (1) 청동기 문자, 금석문, 한자 등 역사적인 중국 문자 스크립트를 사용하여 문자의 상형 문자 증거를 풍부하게 만드는 것; (2) 중국어 문자 이미지 처리에 특화된 CNN 구조(천제격-CNN)를 설계하는 것; (3) 다중 작업 학습 설정에서 이미지 분류를 보조 작업으로 사용하여 모델의 일반화 능력을 높이는 것입니다. 우리는 글리프 기반 모델이 다양한 중국어 NLP 작업에서 단어/문자 ID 기반 모델보다 일관되게 우수한 성능을 보임을 입증하였습니다. 예를 들어, 제안된 모델은 OntoNotes NER 데이터셋에서 F1 점수가 80.6으로 BERT보다 1.5 포인트 높으며, 푸단(Fudan) 코퍼스의 텍스트 분류 작업에서는 거의 완벽한 정확도인 99.8%를 달성하였습니다. 코드는 https://github.com/ShannonAI/glyce 에서 확인할 수 있습니다.