17일 전

긴 명명된 엔터티 인식을 위한 정규화

Minbyul Jeong, Jaewoo Kang
긴 명명된 엔터티 인식을 위한 정규화
초록

이름 있는 엔티티 인식(Named Entity Recognition, NER)을 수행할 때 엔티티의 길이는 특정 도메인이나 데이터셋에 따라 변할 수 있으며, 일정하지 않습니다. 사전 훈련된 언어 모델(Pre-trained Language Models, PLMs)은 NER 작업을 해결하는 데 널리 사용되지만, 엔티티 길이 통계, 표면 형태, 불균형한 클래스 분포와 같은 데이터셋의 패턴에 편향되기 쉽습니다. 이러한 편향은 실제 세계에서 발생하는 많은 미등장 언급(unknown mentions)을 다루는 데 필수적인 PLMs의 일반화 능력을 저해합니다. 본 연구에서는 다양한 길이의 엔티티에 대해 예측 성능을 향상시키기 위해 새로운 비편향화 방법인 RegLER를 제안합니다. 평가와 실제 상황 간 격차를 해소하기 위해, 미등장 언급 집합을 포함한 분할된 벤치마크 데이터셋에서 PLMs를 평가하였으며, RegLER는 엔티티 내 결합어나 특수문자에 대한 비편향 처리를 통해 긴 엔티티에 대해 뚜렷한 성능 향상을 보였습니다. 또한 대부분의 NER 데이터셋에서 심각한 클래스 불균형이 존재하여, 훈련 과정에서 'The'와 같은 쉬운 부정 예시(easy-negative examples)가 지배적인 영향을 미치는 문제가 발생합니다. 본 연구에서는 이러한 쉬운 부정 예시의 영향을 줄임으로써 불균형한 클래스 분포 문제를 완화하는 접근 방식을 제시합니다. 생물의학 및 일반 도메인에서 실시한 광범위한 실험을 통해 제안 방법의 우수한 일반화 능력을 입증하였습니다. 재현성 및 향후 연구를 촉진하기 위해, 본 연구의 코드를 공개합니다.https://github.com/minstar/RegLER