9일 전
TorchicTab: 위키데이터와 언어 모델을 활용한 의미적 테이블 주석 처리
{Anastasia Dimou, Xuemin Duan, Duo Yang, Ioannis Dasoulas}

초록
다양한 표 형식의 데이터가 존재하며, 다양한 응용 분야에서 활용되고 있다. 그러나 이러한 데이터의 상당 부분은 사용자와 기계가 이를 올바르게 이해하기 위해 필요한 의미 정보를 결여하고 있다. 이러한 표의 의미적 이해 부족은 데이터 분석 파이프라인 내에서의 활용을 저해한다. 표의 의미를 해석하기 위한 기존 솔루션들은 존재하지만, 특정한 주석 작업과 표 유형에 집중되어 있으며, 대규모 지식 기반에 의존하기 때문에 실세계 환경에서의 재사용이 어렵다는 한계가 있다. 따라서 다양한 표 유형에 적응 가능하고 더 정확한 주석을 생성할 수 있는 보다 강력한 시스템의 개발이 필요하다. 표 데이터를 지식 그래프와 매칭하는 의미 웹 챌린지(SemTab)는 다양한 데이터셋과 작업을 기반으로 의미적 표 해석 시스템을 평가하고 벤치마킹하기 위해 도입되었다. 본 논문에서는 외부 지식 그래프(예: 위키데이터) 또는 미리 정의된 용어로 주석이 달린 표를 활용하여 다양한 구조를 가진 표를 주석할 수 있는 유연한 의미적 표 해석 시스템인 TorchicTab을 제안한다. 제안된 시스템은 SemTab 챌린지의 다양한 주석 작업을 기준으로 평가되었으며, 결과적으로 다양한 데이터셋에서 다양한 작업에 대해 정확한 주석을 생성할 수 있음을 확인하였다.