2달 전

TAPEX: 테이블 사전 학습을 위한 신경망 SQL 실행기 학습

Qian Liu; Bei Chen; Jiaqi Guo; Morteza Ziyadi; Zeqi Lin; Weizhu Chen; Jian-Guang Lou
TAPEX: 테이블 사전 학습을 위한 신경망 SQL 실행기 학습
초록

최근 언어 모델의 사전 학습에서 대규모 비정형 텍스트 데이터를 활용함으로써 큰 성공을 거두었습니다. 그러나, 고급 테이블 데이터의 부족으로 인해 구조화된 표 형식 데이터에 대한 사전 학습은 여전히 도전과제입니다. 본 논문에서는 TAPEX를 제안하여, 신경망 기반 SQL 실행기(neural SQL executor)가 자동으로 생성된 실행 가능한 SQL 쿼리와 그 실행 결과로 구성된 합성 코퍼스(synthetic corpus)를 통해 테이블 사전 학습이 가능하다는 것을 보여줍니다. TAPEX는 다양하고 대규모이며 고품질의 합성 코퍼스를 통해 언어 모델이 SQL 실행기를 모방하도록 유도하여 데이터 부족 문제를 해결합니다. 우리는 TAPEX를 네 가지 벤치마크 데이터셋에서 평가하였으며, 실험 결과 TAPEX가 이전의 테이블 사전 학습 접근법보다 크게 우수하며 모든 데이터셋에서 새로운 최고 수준의 성능을 달성함을 확인하였습니다. 이는 약간 지도된 WikiSQL 의미 정확도(89.5%, +2.3%), WikiTableQuestions 의미 정확도(57.5%, +4.8%), SQA 의미 정확도(74.5%, +3.5%), 그리고 TabFact 정확도(84.2%, +3.2%) 등의 개선을 포함합니다. 우리 지식으로는, 이 연구가 처음으로 합성 실행 프로그램을 통해 테이블 사전 학습을 활용하고 다양한 하류 작업에서 새로운 최고 수준의 성능을 달성한 것입니다. 우리의 코드는 https://github.com/microsoft/Table-Pretraining 에서 확인할 수 있습니다.

TAPEX: 테이블 사전 학습을 위한 신경망 SQL 실행기 학습 | 최신 연구 논문 | HyperAI초신경