17일 전

T-NER: Transformer 기반 명명된 엔터티 인식을 위한 종합적인 파이썬 라이브러리

Asahi Ushio, Jose Camacho-Collados
T-NER: Transformer 기반 명명된 엔터티 인식을 위한 종합적인 파이썬 라이브러리
초록

언어 모델(LM) 사전학습은 명명된 실체 인식(NER)을 포함한 다양한 자연어 처리(NLP) 하류 작업에서 지속적인 성능 향상을 이끌어냈다. 본 논문에서는 NER를 위한 LM 미세조정(Finetuning)을 위한 파이썬 라이브러리인 T-NER(Transformer 기반 명명된 실체 인식)를 제안한다. T-NER는 실용적 활용 가치 외에도, NER 데이터셋에 미세조정된 LM의 도메인 간 및 언어 간 일반화 능력을 연구하고 탐구하는 데 기여한다. 또한 사용자가 임의의 텍스트에 대해 모델 예측을 상호작용 방식으로 확인할 수 있는 웹 애플리케이션을 제공함으로써, 비전문가 프로그래머도 질적 모델 평가를 용이하게 할 수 있다. 본 라이브러리의 잠재력을 입증하기 위해, 공개된 9개의 NER 데이터셋을 통일된 형식으로 정리하고, 각 데이터셋 간의 도메인 간 및 언어 간 성능을 평가하였다. 초기 실험 결과에 따르면, 동일 도메인 내 성능은 대부분의 데이터셋에서 경쟁력 있는 수준을 보였다. 그러나 대규모 사전학습된 LM을 사용하더라도 도메인 간 일반화는 여전히 도전적인 과제로 나타났다. 다만, 복합 데이터셋에 대해 미세조정된 경우, 도메인 특화 특징을 학습할 수 있는 잠재력이 있음을 확인하였다. 향후 연구를 촉진하기 위해, 본 연구에서 사용한 모든 LM 체크포인트를 허깅페이스 모델 허브(Hugging Face Model Hub)를 통해 공개한다.