대조 학습을 통한 명명된 개체 인식을 위한 Bi-Encoder 최적화

우리는 명명된 개체 인식(Named Entity Recognition, NER)을 위해 대조적 학습(contrastive learning)을 적용하여 후보 텍스트 스팬과 개체 유형을 동일한 벡터 표현 공간으로 매핑하는 바이-인코더(bi-encoder) 프레임워크를 제시합니다. 이전 연구에서는 주로 NER을 시퀀스 라벨링(sequence labeling) 또는 스팬 분류(span classification) 문제로 접근하였습니다. 우리는 대신 NER을 벡터 표현 사이의 유사성을 최대화하는 표현 학습(representation learning) 문제로 정의합니다. 이는 중첩(nested) 및 평면(flat) NER 모두 쉽게 처리할 수 있으며, 더 나은 방식으로 노이즈가 포함된 자기 감독 신호(self-supervision signals)를 활용할 수 있습니다.바이-인코더 구조에서 NER에 대한 주요 도전 과제는 비개체(non-entity) 스팬과 개체 언급(entity mentions)을 구분하는 것입니다. 대부분의 이전 방법처럼 모든 비개체 스팬을 명시적으로 같은 클래스 $\texttt{Outside}$ ($\texttt{O}$)로 라벨링하지 않고, 우리는 새로운 동적 임계값 손실(dynamic thresholding loss)을 도입하였습니다. 실험 결과, 우리의 방법은 감독 학습(supervised) 및 원격 감독 학습(distantly supervised) 환경에서 모두 중첩 및 평면 NER에 대해 우수한 성능을 보였으며, 일반 영역(예: ACE2004, ACE2005)과 고가치 전문 영역(예: 생물의학 - GENIA, NCBI, BC5CDR, JNLPBA)에서 표준 데이터셋들에 걸쳐 새로운 최고 기술 수준(state of the art)을 달성하였습니다. 우리는 코드를 github.com/microsoft/binder에서 공개합니다.