9일 전

SOTAB: WDC Schema.org 테이블 어노테이션 벤치마크

{Christian Bizer, Ralph Peeters, Keti Korini}
SOTAB: WDC Schema.org 테이블 어노테이션 벤치마크
초록

테이블 요소의 의미를 이해하는 것은 다양한 데이터 통합 및 데이터 탐색 작업을 수행하기 위한 전제 조건이다. 테이블 주석화(Annotation)란 주어진 어휘집의 용어를 사용하여 테이블 요소에 레이블을 붙이는 작업을 의미한다. 본 논문은 테이블 주석화 시스템의 성능을 비교하기 위한 WDC Schema.org 테이블 주석화 벤치마크(SOTAB, WDC Schema.org Table Annotation Benchmark)를 제안한다. SOTAB은 열 유형 주석화(Colmn Type Annotation, CTA) 및 열 속성 주석화(Column Property Annotation, CPA)라는 두 가지 작업을 포함한다. 각 작업에 대해 약 5만 개의 주석이 달린 테이블을 제공하며, 이 테이블들은 다양한 웹사이트에서 추출한 Schema.org 데이터를 기반으로 한다. 해당 테이블은 영화, 이벤트, 지역 사업체, 조리법, 채용 공고, 제품 등 총 17개의 서로 다른 엔티티 유형을 다룬다. 이 테이블들은 Common Crawl에서 Schema.org 주석을 추출하여 구성한 WDC Schema.org 테이블 코퍼스에서 유래하였으며, 따라서 SOTAB에서 사용된 열 주석 레이블은 Schema.org 어휘의 일부이다. 벤치마크는 CTA에 대해 91개의 유형과 CPA에 대해 176개의 속성을 포함하며, 이는 텍스트형, 수치형, 날짜/시간 형식의 열에 걸쳐 분포되어 있다. 테이블은 고정된 학습용, 검증용, 테스트용 세트로 분할되어 있으며, 테스트 세트는 결측값을 포함한 열이나 다양한 값 형식을 가진 열과 같은 특정한 도전 과제에 초점을 맞춘 하위 세트로 추가로 분류되어, 주석화 시스템 간의 보다 세밀한 성능 비교를 가능하게 한다. Doduo와 TURL을 활용한 SOTAB 평가 결과, 현재 최신 기술 수준의 시스템으로서도 이 벤치마크를 해결하는 것은 매우 어려운 과제임이 확인되었다.

SOTAB: WDC Schema.org 테이블 어노테이션 벤치마크 | 최신 연구 논문 | HyperAI초신경