BanglaCoNER: 강건한 방향의 방글라어 복합 명명된 실체 인식

명사 인식(Named Entity Recognition, NER)은 자연어 처리 분야에서 텍스트 내에 존재하는 명명된 실체를 식별하고 분류하는 기초적인 작업이다. 그러나 세계에서 여섯 번째로 많이 사용되는 언어인 방글라어(Bangla)에 대한 복잡한 명명된 실체 인식(CNER)에 대한 연구는 여전히 부족한 실정이다. 전통적인 NER보다 더 도전적인 작업인 CNER는 복합적이고 복합 구조를 가진 실체를 식별하고 분류하는 것을 포함하며, 이는 방글라어에서는 흔하지 않은 특징이다. 본 논문에서는 방글라어 복잡 명명된 실체 인식 챌린지(Bangla Complex Named Entity Recognition Challenge)의 우승 솔루션을 제시하며, 방글라어 CoNER 데이터셋에서 CNER 작업을 수행하기 위해 조건부 확률 필드(Conditional Random Fields, CRF)와 방글라BERT(BanglaBERT)를 기반으로 한 트랜스포머 기반 딥러닝 모델의 미세조정(finetuning)이라는 두 가지 접근 방식을 사용하였다.이 데이터셋은 학습용으로 15,300개의 문장과 검증용으로 800개의 문장으로 구성되어 있으며, .conll 형식으로 제공되었다. 데이터셋에 대한 탐색적 데이터 분석(Exploratory Data Analysis, EDA) 결과, 데이터셋은 총 7개의 NER 태그를 포함하고 있었으며, 영어 단어의 빈번한 등장이 두드러져 있어, 이 데이터셋이 합성 데이터이며 번역을 통해 생성된 것으로 보인다는 점이 확인되었다.우리는 품사 태그(POS tags), 단어 접미사, 지명사 사전(Gazetteers), 임베딩에서 추출한 클러스터 정보 등 다양한 특징 조합을 실험하였으며, 방글라BERT(Large) 모델을 NER 작업에 맞게 미세조정하였다. 분석 결과, 모든 언어적 패턴이 인간에게 즉각적으로 명확하거나 직관적인 것은 아니며, 이로 인해 딥러닝 기반 모델이 자연어 처리(NLP) 분야, 특히 CNER 작업에서 더 효과적인 성능을 발휘함을 입증하였다. 미세조정된 방글라BERT(Large) 모델은 검증 세트에서 F1 스코어 0.79를 달성하였다. 종합적으로 본 연구는 방글라어의 복잡한 명명된 실체 인식의 중요성을 강조하며, 특히 합성 데이터셋 환경에서의 응용 가능성을 제시한다. 또한 방글라BERT와 같은 딥러닝 모델이 방글라어 NER 작업에 매우 효과적임을 실험적으로 입증하였다.