
웹 상의 관계형 HTML 테이블은 다양한 실체(entity)를 설명하는 데이터를 포함하며, 매우 광범위한 주제를 다룹니다. 따라서 웹 테이블은 DBpedia, YAGO, 또는 구글 지식 그래프(Google Knowledge Graph)와 같은 다분야 지식 기반(knowledge base)에서 누락된 값을 채우는 데 매우 유용합니다. 웹 테이블 데이터를 이러한 목적에 사용하기 전에, 해당 지식 기반과의 매칭이 필요합니다. 이 매칭 과정은 세 가지 주요 작업으로 구성됩니다: 테이블-클래스 매칭, 행-인스턴스 매칭, 속성-속성(property) 매칭입니다. 각 작업에 대해 다양한 매칭 접근법이 제안되어 왔습니다. 그러나 기존의 접근법들은 서로 다른 웹 테이블 코퍼스(corpus)를 기반으로 평가되어 왔으며, 각각의 개별 접근법은 웹 테이블과 지식 기반에서 활용 가능한 특징(feature) 중 일부만 사용합니다. 이러한 두 가지 한계로 인해 서로 다른 매칭 접근법 간의 비교가 어렵고, 각 특징이 전체 매칭 성능에 미치는 영향을 평가하기도 어렵습니다. 본 논문은 문헌에서 제안된 다양한 매칭 기법 및 유사도 점수 집계 방법들을 하나의 통합 매칭 프레임워크 내에서 재구현하고, 동일한 골드 표준(gold standard)을 기준으로 다양한 기법 조합을 평가함으로써, 웹 테이블과 지식 기반 간 매칭에 있어 각 특징의 유용성에 대한 이해를 향상시키는 기여를 합니다. 해당 골드 표준은 웹 데이터 공동체(Web Data Commons)의 웹 테이블 코퍼스에서 추출한 웹 테이블과 DBpedia 지식 기반 간의 클래스, 인스턴스, 속성 수준의 대응 관계를 포함합니다.