TAPAS: 사전 훈련을 통한 약한 감독 테이블 구문 분석

테이블 위에서 자연어 질문에 답하는 것은 일반적으로 의미 구문 분석(semantic parsing) 작업으로 간주된다. 완전한 논리 형식(logical forms)의 수집 비용을 줄이기 위해, 한 가지 인기 있는 접근법은 논리 형식 대신 denotation(의미적 결과)만을 사용하는 약한 감독(weak supervision)에 초점을 맞추는 것이다. 그러나 약한 감독에서 의미 구문 분석기(semantic parser)를 학습하는 것은 어려움을 수반하며, 더불어 생성된 논리 형식은 최종 denotation를 검색하기 전의 중간 단계로만 활용된다. 본 논문에서는 논리 형식을 생성하지 않고도 테이블 기반 질문에 답할 수 있는 TAPAS를 제안한다. TAPAS는 약한 감독으로부터 학습되며, 테이블의 특정 셀을 선택하고 선택된 셀에 해당하는 집계 연산자(aggregation operator)를 선택적으로 적용함으로써 denotation을 예측한다. TAPAS는 BERT의 아키텍처를 확장하여 테이블을 입력으로 인코딩하며, 위키피디아에서 크롤링한 텍스트 세그먼트와 테이블을 함께 효과적으로 사전 학습(pre-training)한 초기 상태를 사용하고, 전체적으로 엔드투엔드(end-to-end)로 학습된다. 우리는 세 가지 다른 의미 구문 분석 데이터셋에서 실험을 수행하였으며, TAPAS가 기존의 의미 구문 분석 모델들을 능가하거나 비슷한 성능을 보였음을 확인하였다. 특히 SQA 데이터셋에서 최신 기술의 정확도를 55.1에서 67.2로 향상시켰으며, WIKISQL과 WIKITQ에서도 최신 기술과 동등한 성능을 달성하였다. 이는 더 단순한 모델 아키텍처를 사용함에도 불구하고 가능했다. 또한, 본 연구 환경에서는 전이 학습(transfer learning)이 매우 간단하게 적용 가능함을 발견하였으며, WIKISQL에서 WIKITQ로의 전이 학습을 통해 48.7의 정확도를 달성하여 최신 기술보다 4.2 포인트 높은 성능을 보였다.