17일 전
GraPPa: 테이블 의미 구문 분석을 위한 문법 보강 사전 훈련
Tao Yu, Chien-Sheng Wu, Xi Victoria Lin, Bailin Wang, Yi Chern Tan, Xinyi Yang, Dragomir Radev, Richard Socher, Caiming Xiong

초록
우리는 텍스트와 표 데이터의 결합 표현에서 구성적 인덕티브 바이어스를 학습하는 효과적인 테이블 의미 분석을 위한 사전 훈련 방법인 GraPPa를 제안한다. 기존의 텍스트-SQL 데이터셋에서 유도된 동기화 문맥 자유 문법(Synchronous Context-Free Grammar, SCFG)을 활용하여 고품질의 테이블 기반으로 합성된 질문-SQL 쌍을 구성한다. 이후 각 질문-SQL 쌍에 대해 테이블 필드가 SQL 문장에서 어떤 문법적 역할을 하는지를 예측하는 새로운 텍스트-스키마 연결 목표 함수를 사용하여 합성 데이터를 기반으로 모델을 사전 훈련한다. 실제 세계 데이터를 효과적으로 표현할 수 있는 능력을 유지하기 위해, 사전 훈련 과정을 정규화하기 위해 여러 기존의 테이블 및 언어 데이터셋에서 마스킹 언어 모델링(Masked Language Modeling, MLM)을 추가로 포함한다. 네 가지 대표적인 완전 감독 및 약한 감독 테이블 의미 분석 벤치마크에서 GraPPa는 RoBERTa-large를 특징 표현 계층으로 사용한 경우에 비해 유의미하게 우수한 성능을 보이며, 모든 벤치마크에서 새로운 최고 성능(SOTA)을 달성한다.