초록
감독형 엔터티 해상성 방법은 두 개 이상의 데이터 소스 간의 매칭 패턴을 학습하기 위해 레이블이 붙은 레코드 쌍에 의존한다. 주동 학습(active learning)은 정보성이 높은 쌍을 선택하여 레이블링 작업을 최소화한다. 기존의 엔터티 해상성을 위한 주동 학습 방법들은 모두 이원 소스 매칭 시나리오에 초점을 맞추고 있으며, 웹 오브 데이터(Web of Data)와 같은 다중 소스 환경에서만 존재하는 신호를 무시한다. 본 논문에서는 다중 소스 엔터티 해상성을 위한 그래프 기반 주동 학습 방법인 ALMSER를 제안한다. 우리 지식상 ALMSER는 다중 소스 환경에 특별히 최적화된, 주동 학습 기반의 엔터티 해상성 방법으로서 처음으로 개발된 것이다. ALMSER는 다중 소스 환경에서 존재하는 풍부한 대응 그래프(correspondence graph)를 활용하여 정보성이 높은 레코드 쌍을 선택한다. 또한, 대응 그래프는 보완적인 학습 데이터를 도출하는 데에도 사용된다. 본 연구에서는 다양한 프로파일링 특성을 가진 다섯 가지 다중 소스 매칭 작업을 대상으로 제안한 방법을 평가하였다. 실험 결과, 그래프 신호를 활용함으로써, 모든 작업에서 마진 기반 및 위원회 기반 쿼리 전략을 사용하는 기존 주동 학습 방법보다 F1 점수 측면에서 향상된 성능을 달성함을 확인하였다.