
초록
중국어 NER(이름 있는 엔티티 인식)는 도전적인 작업이다. 중국어 문자는 상징문자(한자)로서 잠재적인 문자 형태 정보(Glyph 정보)를 내포하고 있으나, 이러한 정보는 종종 간과된다. 본 논문에서는 중국어 NER를 위한 복합 문자 정보 통합 네트워크(FGN, Fusion Glyph Network)를 제안한다. 이 방법은 문자 정보를 추가하는 것 외에도, 통합 메커니즘을 통해 문자 간 상호작용 정보를 추가로 도입할 수 있다. FGN의 주요 혁신은 다음과 같다. (1) 이웃하는 문자 간의 문자 형태 정보와 문자 간 상호작용 정보를 동시에 추출할 수 있는 새로운 CNN 구조인 CGS-CNN을 제안한다. (2) 문자의 BERT 표현과 문자 형태 표현을 융합하기 위해 슬라이딩 윈도우와 Slice-Attention 기법을 활용한 방법을 제시하며, 이는 문맥과 문자 형태 간 잠재적인 상호작용 지식을 효과적으로 포착할 수 있다. 제안된 모델은 네 가지 NER 데이터셋에서 실험을 수행하였으며, LSTM-CRF를 태거로 사용할 경우 기존 최고 성능을 초월하는 새로운 최고 성능을 달성하였다. 또한 FGN 내 다양한 구성 요소 및 설정이 성능에 미치는 영향을 분석하기 위해 추가 실험을 수행하였다.