히ند어 NER를 위한 문맥 기반 및 비문맥 기반 단어 임베딩 모델 분석 및 데이터 수집을 위한 웹 애플리케이션
명사 인식(Named Entity Recognition, NER)은 주어진 문자열에서 관련된 고유 명사를 식별하는 과정이다. 본 논문에서는 다양한 임베딩 모델을 활용하여 디바나가리(Devanagari) 문자 체계를 사용하는 힌디어 NER 시스템을 개발한 결과를 보고한다. 우리는 임베딩을 '문맥 기반(Contextual)'과 '비문맥 기반(Non-contextual)'으로 구분하고, 각 범주 내외에서 모델 간 비교를 수행한다. 비문맥 기반 임베딩의 경우 Word2Vec과 FastText를 실험하였으며, 문맥 기반 임베딩의 경우 BERT 및 그 변종인 RoBERTa, ELECTRA, CamemBERT, Distil-BERT, XLM-RoBERTa를 활용하였다. 비문맥 기반 임베딩의 경우, 가우시안 NB, AdaBoost 분류기, 다층 퍼셉트론 분류기, 랜덤 포레스트 분류기, 결정 트리 분류기 등 총 다섯 가지 기계학습 알고리즘을 사용하여, 각각 FastText와 Gensim Word2Vec 단어 임베딩 모델을 활용한 10개의 힌디어 NER 시스템을 구축하였다. 이들 모델은 BERT 및 그 변종을 기반으로 한 트랜스포머 기반 문맥 기반 NER 모델들과 비교 분석되었으며, 모든 NER 모델 간의 종합적인 비교 연구가 수행되었다. 마지막으로, 전체 모델 중 가장 우수한 성능을 보인 모델을 선택하여 웹 애플리케이션을 구축하였으며, 사용자는 임의의 길이의 힌디어 텍스트를 입력하면 각 단어에 대해 NER 태그를 반환받을 수 있다. 또한 사용자는 태그의 정확성에 대해 피드백을 제공할 수 있으며, 이러한 피드백은 향후 데이터 수집에 유용하게 활용된다.