Few-NERD: Few-Shot 명명된 엔터티 인식 데이터셋

최근 few-shot 명명된 실체 인식(NER)을 주제로 한 문헌이 급격히 증가하고 있으나, 실용적이고 도전적인 과제에 특화된 공개된 기준 데이터셋은 거의 존재하지 않는다. 기존의 접근 방식들은 기존의 감독형 NER 데이터셋을 수집하여 이를 few-shot 설정으로 재구성하여 실험적 연구를 수행한다. 이러한 기존 전략들은 일반적으로 예시가 적은 조건에서 거시적(macro-level) 실체 유형을 인식하는 데 초점을 맞추고 있으나, 실제 상황에서는 대부분의 미등장 실체 유형이 미세한(micro-level) 세부 유형에 해당한다. 본 논문에서는 8개의 거시적 실체 유형과 66개의 미세한 실체 유형을 포함하는 계층 구조를 가진 대규모 인간 주석 데이터셋인 Few-NERD를 제안한다. Few-NERD는 위키백과에서 수집한 총 188,238개의 문장으로 구성되며, 총 4,601,160개의 단어가 포함되어 있으며, 각 문장은 맥락 또는 이중 계층 구조의 실체 유형의 일부로 주석이 달려 있다. 우리 지식에 따르면, 이는 최초의 few-shot NER 데이터셋이자 가장 규모가 큰 인간 생성 NER 데이터셋이다. 모델의 일반화 능력을 종합적으로 평가하기 위해 다양한 초점을 두는 벤치마크 과제를 구축하였다. 광범위한 실험 결과 및 분석을 통해 Few-NERD가 매우 도전적인 데이터셋임을 확인하였으며, 이 문제는 추가적인 연구가 필요함을 시사한다. Few-NERD는 https://ningding97.github.io/fewnerd/ 에서 공개되어 있다.