2달 전
事전 학습된 언어 모델을 사용한 열 주석 달기
Yoshihiko Suhara; Jinfeng Li; Yuliang Li; Dan Zhang; Çağatay Demiralp; Chen Chen; Wang-Chiew Tan

초록
테이블의 메타 정보(예: 열 헤더나 열 간의 관계)를 추론하는 것은 많은 테이블에서 이러한 정보가 누락되어 있기 때문에 데이터 관리 분야에서 활발히 연구되고 있는 주제입니다. 본 논문에서는 테이블 자체의 정보만을 사용하여 테이블 열을 주석화하는 문제(즉, 열 유형과 열 간의 관계를 예측하는 문제)를 연구합니다. 우리는 사전 학습된 언어 모델을 기반으로 하는 다중 작업 학습 프레임워크(Doduo)를 개발하였으며, 이 프레임워크는 전체 테이블을 입력으로 받아 단일 모델을 통해 열 유형과 관계를 예측합니다. 실험 결과, Doduo는 열 유형 예측 및 열 관계 예측 작업에 대한 두 벤치마크에서 최신 기술 수준의 성능을 달성하며, 각각 최대 4.0%와 11.9%의 개선률을 보였습니다. 또한, Doduo가 각 열당 최소한의 토큰 수인 8개의 토큰만으로도 이전 최신 기술 수준의 성능을 초월할 수 있음을 보고합니다. 우리는 도구 상자를 (https://github.com/megagonlabs/doduo) 공개하고,Doduo의 효과성을 실제 데이터 과학 문제에 대한 사례 연구를 통해 확인하였습니다.