
초록
표는 구조화된 정보의 풍부한 원천이지만, 그 내부에 내재된 모호성 때문에 자동화된 활용이 종종 제한된다. 단순한 오타부터 일관되지 않은 명명 규칙, 값들 사이의 동음이의성에 이르기까지 다양한 문제들이 이 정보 원천을 활용하는 데 상당한 장벽을 만든다. 비록 세마틱 웹이 이러한 문제들 중 다수를 완화할 수는 있지만, 실제 어노테이션 과정은 여전히 도전적인 과제로 남아 있다. 새로운 아이디어의 촉진과 기존 접근법의 개선을 위해 2019년부터 시작된 표 데이터와 지식 그래프 매칭을 주제로 한 세마틱 웹 챌린지(SemTab)는 매년 대회를 개최하여 시스템들이 자신의 현재 능력을 시연할 수 있도록 하고 있다. 다양한 출처와 특성을 지닌 데이터셋들은 이 분야에서 존재하는 다양한 과제들을 부각시킨다. 본 논문에서는 SemTab2021에서 우리 시스템인 “JenTab”의 발전 과정을 보고한다. 우리는 시스템 아키텍처를 재설계하고, 개별 모듈을 최적화하며, 챌린지 과정에서 제기된 특정 과제들을 해결하기 위한 다양한 파이프라인을 개발하였다. JenTab은 SemTab2021의 첫 두 라운드에서 상위 5개 시스템 중 하나로 평가받았으며, 이 결과는 JenTab의 유연성과 새로운 과제에 빠르게 대응할 수 있는 능력을 입증한다.