11일 전

TaBERT: 텍스트 및 테이블 데이터의 공동 이해를 위한 사전학습

Pengcheng Yin, Graham Neubig, Wen-tau Yih, Sebastian Riedel
TaBERT: 텍스트 및 테이블 데이터의 공동 이해를 위한 사전학습
초록

최근 몇 년간 텍스트 기반 자연어(NL) 이해 작업을 위한 사전 학습된 언어 모델(LM)의 급성장이 두드러지고 있다. 이러한 모델들은 일반적으로 자유형 자연어 텍스트 위에서 학습되므로, 데이터베이스 테이블과 같은 구조화된 데이터 위에서 의미적 분석(semantic parsing)과 같은 작업에는 적합하지 않을 수 있다. 이는 자유형 자연어 질문과 구조화된 표 형식 데이터(예: 데이터베이스 테이블)를 동시에 이해하고 추론해야 하는 요구사항을 수반하기 때문이다. 본 논문에서는 자연어 문장과 (반)구조화된 표를 함께 표현하는 사전 학습된 언어 모델인 TaBERT를 제안한다. TaBERT는 2,600만 개의 표와 그에 해당하는 영문 맥락으로 구성된 대규모 코퍼스를 기반으로 학습되었다. 실험 결과, TaBERT를 특징 표현 계층으로 활용한 신경망 기반 의미 분석기(neural semantic parsers)는 도전적인 약한 지도 학습(semi-supervised) 의미 분석 벤치마크인 WikiTableQuestions에서 새로운 최고 성능을 달성하였으며, 텍스트를 SQL로 변환하는 Spider 데이터셋에서도 경쟁력 있는 성능을 보였다. 본 모델의 구현 코드는 http://fburl.com/TaBERT 에서 공개될 예정이다.

TaBERT: 텍스트 및 테이블 데이터의 공동 이해를 위한 사전학습 | 최신 연구 논문 | HyperAI초신경