
초록
이름 있는 실체 인식(Named Entity Recognition, NER)은 비구조화된 텍스트 내에서 이름 있는 실체의 언급을 식별하고 미리 정의된 실체 클래스로 분류하는 것을 목표로 한다. 딥러닝 기반의 사전 학습된 언어 모델은 NER 작업에서 우수한 예측 성능을 달성하는 데 기여하고 있으나, 여전히 많은 도메인 특화 NER 응용에서는 방대한 양의 레이블 데이터가 필요하다. 능동 학습(Active Learning, AL)은 레이블 획득 문제를 해결하기 위한 일반적인 프레임워크로, 모델 성능을 희생시키지 않으면서도 주석 비용을 최소화하는 데 사용되고 있다. 그러나 토큰의 클래스 분포가 극도로 불균형한 특성은 효과적인 AL 질의 방법 설계에 도전 과제를 제기한다. 본 연구에서는 잠재적인 긍정 토큰에 더 주목하는 여러 AL 문장 질의 평가 함수를 제안하며, 문장 기반 및 토큰 기반의 비용 평가 전략을 통해 제안된 함수들을 평가한다. 또한, 너무 길거나 너무 짧은 문장을 보상하는 더 나은 데이터 기반 정규화 방식을 제안한다. 다양한 도메인에서 수집한 세 가지 데이터셋에 대한 실험 결과, 제안된 방법은 전통적인 방법과 비교하여 더 적은 수의 주석 토큰으로도 더 나은 또는 유사한 예측 성능을 달성함을 확인하였다.