
초록
이름 있는 실체 인식(Named Entity Recognition, NER)은 일반적으로 토큰 시퀀스에 대한 분류 문제로 설정되는 기초적인 자연어 처리(NLP) 과제이다. 형태소가 풍부한 언어(Morphologically-Rich Languages, MRLs)는 이 기본적 설정에 도전을 제기한다. 왜냐하면 이름 있는 실체의 경계가 반드시 토큰 경계와 일치하지는 않으며, 오히려 형태소 경계를 따르기 때문이다. 이러한 MRLs에서 NER를 해결하기 위해서는 두 가지 근본적인 질문에 답해야 한다. 첫째, 레이블링의 기본 단위는 무엇인지, 둘째, 실제 환경(즉, 정답 형태소 정보가 제공되지 않는 환경)에서 이러한 단위를 어떻게 탐지하고 분류할 수 있는지이다. 본 연구에서는 현대 히브리어라는 형태소가 풍부하고 의미가 모호한 언어를 대상으로, 토큰 수준과 형태소 수준의 병렬 NER 주석을 갖춘 새로운 NER 벤치마크를 개발하여 이 질문들을 실증적으로 탐구한다. 연구 결과는 형태소 경계를 명시적으로 모델링하는 것이 NER 성능을 향상시킨다는 것을 보여주며, NER가 형태소 분해를 사전에 수행하고 이를 단순화하는 새로운 하이브리드 아키텍처가 기존의 형태소 분해가 NER보다 반드시 먼저 이루어지는 표준 파이프라인보다 크게 우수함을 확인하였다. 이는 히브리어 NER 및 히브리어 형태소 분해 작업에 대해 새로운 성능 기준을 설정하였다.