2달 전
Sato: 표에서의 문맥적 의미 유형 검출
Dan Zhang; Yoshihiko Suhara; Jinfeng Li; Madelon Hulsebos; Çağatay Demiralp; Wang-Chiew Tan

초록
관계형 테이블의 데이터 열의 의미 타입을 감지하는 것은 데이터 정제, 스키마 매칭, 데이터 발견, 의미 검색 등의 다양한 데이터 준비 및 정보 검색 작업에서 중요합니다. 그러나 기존의 감지 접근 방식은 더티 데이터에 대해 성능이 좋지 않거나 지원하는 의미 타입의 수가 제한적이거나 열의 테이블 맥락을 통합하지 못하거나 대규모 샘플 크기를 필요로 하는 경우가 많습니다. 우리는 이러한 문제를 해결하기 위해 Sato라는 하이브리드 머신 러닝 모델을 소개합니다. Sato는 열 값뿐만 아니라 테이블 맥락에서 얻은 신호를 활용하여 테이블 내 열의 의미 타입을 자동으로 감지하도록 설계되었습니다. Sato는 대규모 테이블 코퍼스에서 학습된 딥러닝 모델과 주제 모델링, 구조적 예측을 결합하여 각각 0.925와 0.735의 지원 가중 평균和支持 가중 평균 F1 점수를 달성하며, 이는 현행 최고 수준의 성능을 크게 초월하는 결과입니다. 우리는 Sato의 전체적인 성능과 유형별 성능을 철저히 분석하고, 개별 모델링 구성 요소와 특징 범주가 어떻게 성능에 기여하는지를 논합니다.注释:- "支持加权平均" 和 "支持加权平均 F1 分数" 在韩文中通常翻译为 "지원 가중 평균" 和 "지원 가중 평균 F1 점수"。- 如果需要进一步的专业术语校对,请提供相关领域的标准术语表。