
초록
이 논문은 지식 그래프(KG)의 엔티티 정합(entity alignment)을 위한 새로운 문제 설정을 탐구한다. 지식 그래프는 서로 다른 엔티티 집합을 가지고 있기 때문에, 서로 정합이 불가능한 엔티티가 존재할 수 있으며, 이로 인해 '이탈 엔티티(dangling entities)' 문제를 초래할 수 있다. 이 문제에 대한 최초의 시도로서, 우리는 새로운 데이터셋을 구축하고, 엔티티 정합과 이탈 엔티티 탐지의 두 가지 작업을 동시에 수행할 수 있는 다중 작업 학습(multi-task learning) 프레임워크를 설계하였다. 이 프레임워크는 탐지된 이탈 엔티티에 대해 정합 예측을 회피하도록 선택할 수 있다. 이탈 엔티티 탐지를 위한 세 가지 기법을 제안한다. 이들은 근접 이웃 거리의 분포에 기반한 것으로, 근접 이웃 분류(nearest neighbor classification), 경계 순위 매기기(marginal ranking), 배경 순위 매기기(background ranking)이다. 이탈 엔티티를 탐지하고 제거한 후, 프레임워크 내에 통합된 엔티티 정합 모델은 남은 엔티티에 대해 더 강건한 정합 결과를 제공할 수 있다. 광범위한 실험과 분석을 통해 본 프레임워크의 효과성을 입증하였다. 또한, 이탈 엔티티 탐지 모듈이 정합 학습과 최종 성능을 향상시키는 역할을 할 수 있음을 발견하였다. 본 연구에서 기여한 자원은 향후 연구를 촉진하기 위해 공개되어 있다.