17일 전

HiNER: 대규모 힌두어 명명된 엔티티 인식 데이터셋

Rudra Murthy, Pallab Bhattacharjee, Rahul Sharnagat, Jyotsana Khatri, Diptesh Kanojia, Pushpak Bhattacharyya
HiNER: 대규모 힌두어 명명된 엔티티 인식 데이터셋
초록

이름 있는 실체 인식(Named Entity Recognition, NER)은 자유 텍스트 내 단어에 사람(Person), 장소(Location), 조직(Organisation), 시간(Time), 숫자(Number) 등의 클래스 레이블을 부여하는 기초적인 자연어 처리(NLP) 과제이다. 이름 있는 실체는 다단어 표현일 수도 있으며, 이 경우 NER 주석 과정에서 레이블을 정확히 지정하기 위해 추가적인 I-O-B(annotation) 정보가 활용된다. 영어 및 유럽 언어는 NER 과제에 대해 상당한 양의 주석 데이터를 보유하고 있으나, 인도 언어는 양적 측면뿐 아니라 주석 기준 준수 측면에서도 여전히 부족한 실정이다. 본 논문에서는 109,146개의 문장과 2,220,856개의 토큰을 포함하며 11개 태그로 주석 처리된 표준에 부합하는 상당한 규모의 힌디어 NER 데이터셋을 공개한다. 본 데이터셋의 통계를 핵심적인 세부 사항까지 자세히 논의하고, 데이터에 사용된 NER 태그셋에 대한 심층적 분석을 제공한다. 본 데이터셋의 태그셋 통계는 사람, 장소, 조직과 같은 주요 클래스에서 특히 균형 잡힌 태그 분포를 보여주며, 건강한 데이터 구조를 나타낸다. 자원의 효과성을 입증하는 가장 확실한 방법은 해당 자원을 활용해 모델을 구축하고, 벤치마크 데이터 및 공동 과제의 리더보드 성과와 비교하여 성능을 평가하는 것이다. 본 연구에서도 이러한 접근을 취한다. 우리는 다양한 언어 모델을 사용하여 NER를 위한 시퀀스 레이블링 작업을 수행하고, 힌디어 NER 과제에 공개된 다른 데이터셋으로 훈련된 모델들과의 비교 평가를 통해 본 데이터셋의 효용성을 입증한다. 본 데이터셋을 활용하면 모든 태그를 포함한 경우 가중 평균 F1 스코어가 88.78에 달하며, 태그셋을 축소한 경우 92.22까지 도달한다. 본 논문에서 논의한 바와 같이, 현재까지 알려진 바에 따르면 힌디어 NER 분야에서 규모(양)와 다양성(변동성) 측면에서 모두 기준을 충족하는 데이터셋은 존재하지 않는다. 본 연구는 이러한 공백을 채우는 작업이며, 힌디어에 대한 자연어 처리 발전에 크게 기여할 것으로 기대된다. 본 데이터셋과 함께 코드 및 모델은 https://github.com/cfiltnlp/HiNER 에서 공개된다.

HiNER: 대규모 힌두어 명명된 엔티티 인식 데이터셋 | 최신 연구 논문 | HyperAI초신경