병렬 인스턴스 쿼리 네트워크를 이용한 명명된 실체 인식

명명된 실체 인식(Named Entity Recognition, NER)은 자연어 처리의 기본적인 작업입니다. 최근 연구에서는 명명된 실체 인식을 읽기 이해 작업으로 다루며, 유형별 쿼리를 수동으로 구성하여 실체를 추출합니다. 이러한 패러다임은 세 가지 문제점을 가지고 있습니다. 첫째, 유형별 쿼리는 한 번의 추론에서 하나의 유형의 실체만 추출할 수 있어 효율성이 떨어집니다. 둘째, 서로 다른 유형의 실체 추출이 고립되어 이루어지며, 그들 사이의 의존성을 무시합니다. 셋째, 쿼리 구축은 외부 지식에 의존하며, 수백 개의 실체 유형을 가진 실제 시나리오에 적용하기 어렵습니다.이러한 문제들을 해결하기 위해 우리는 병렬 인스턴스 쿼리 네트워크(Parallel Instance Query Network, PIQN)를 제안합니다. 이는 전역적이고 학습 가능한 인스턴스 쿼리를 설정하여 문장에서 실체를 병렬적으로 추출하는 방식입니다. 각 인스턴스 쿼리는 하나의 실체를 예측하며, 모든 인스턴스 쿼리를 동시에 입력함으로써 모든 실체를 병렬로 조회할 수 있습니다. 외부 지식에서 구축되는 것이 아니라, 인스턴스 쿼리는 훈련 중에 서로 다른 쿼리 의미를 학습할 수 있습니다.모델을 훈련시키기 위해 우리는 라벨 할당을 일대다 선형 할당 문제(Linear Assignment Problem, LAP)로 취급하고, 최소 할당 비용으로 금자탑(gold) 실체를 동적으로 인스턴스 쿼리에 할당합니다. 중첩(Nested) 및 평면(Flat) NER 데이터셋에 대한 실험 결과는 제안된 방법이 기존 최신 모델보다 우수한 성능을 보임을 입증하였습니다.