18일 전

엔티티 매칭 벤치마크 작업의 프로파일링

{Christian Bizer, Anna Primpeli}
초록

엔티티 매칭은 수십 년간 연구되어 온 데이터 통합의 핵심 과제이다. 이러한 기간 동안 엔티티 매칭 방법을 평가하기 위한 다양한 벤치마크 과제들이 개발되어 왔다. 본 논문은 21개의 엔티티 매칭 벤치마크 과제를 체계적으로 보완하고, 각각의 특징을 분석하며 비교한다. 서로 다른 과제들에 연결된 구체적인 도전 과제들을 더 잘 이해하기 위해, 매칭 과제의 핵심적인 측면을 포괄하는 일련의 프로파일링 차원을 정의한다. 이러한 차원을 기반으로 유사한 특성을 가진 벤치마크 과제들을 그룹화한다. 이후 각 그룹 내의 과제 난이도를 평가하기 위해, 표준적인 특성 공학과 두 가지 일반적인 분류 방법을 사용하여 베이스라인 평가 결과를 산출한다. 평가 결과의 정확한 재현 가능성을 보장하기 위해서는 매칭 및 비매칭 레코드 쌍의 정확히 정의된 집합과 고정된 개발 및 테스트 분할이 필요하다. 그러나 일부 널리 사용되는 벤치마크 과제들에서는 이러한 조건이 충족되지 않기 때문에, 본 연구는 이러한 과제들에 대해 고정된 비매칭 쌍 집합과 고정된 분할을 보완하여, 최종 개발 및 테스트 세트를 공개적으로 다운로드할 수 있도록 제공한다. 벤치마크 과제들의 프로파일링과 보완을 통해, 연구자들이 도전적이고 다양한 과제를 선택하고, 명확하게 정의된 기준에 따라 매칭 시스템을 비교할 수 있도록 지원한다.