13일 전
생성 증강 사전 학습을 통한 의미 구문 분석을 위한 문맥적 표현 학습
Peng Shi, Patrick Ng, Zhiguo Wang, Henghui Zhu, Alexander Hanbo Li, Jun Wang, Cicero Nogueira dos Santos, Bing Xiang

초록
최근 들어, 대규모 텍스트 코퍼스를 활용하여 자기지도 학습 목표(예: 마스킹 언어 모델, MLM)를 갖춘 대규모 신경망 언어 모델을 훈련함으로써 다양한 자연어 처리(NLP) 작업을 위한 문맥적 표현을 학습하는 데 큰 관심이 쏠리고 있다. 그러나 사전 연구를 통해 기존의 일반 목적 언어 모델이 텍스트-to-SQL 의미 해석기(text-to-SQL semantic parser)에 적용될 때 세 가지 문제를 확인하였다. 첫째, 사용자 발화 내에서 열(column)을 언급하는 것을 탐지하지 못하는 점이며, 둘째, 셀 값(cell values)으로부터 열을 추론하지 못하는 점, 셋째, 복잡한 SQL 쿼리를 구성하지 못하는 점이다. 이러한 문제를 완화하기 위해, 생성 모델을 활용하여 사전 훈련 데이터를 생성함으로써 자연어 발화와 테이블 스키마의 표현을 공동으로 학습하는 모델 사전 훈련 프레임워크인 생성 증강 사전 훈련(GAP, Generation-Augmented Pre-training)을 제안한다. GAP 모델은 200만 개의 발화-스키마 쌍과 3만 개의 발화-스키마-SQL 삼중쌍을 기반으로 훈련되며, 이들 발화는 생성 모델에 의해 생성되었다. 실험 결과에 따르면, GAP 모델을 표현 인코더로 활용하는 신경망 의미 해석기는 SPIDER 및 CRITERIA-TO-SQL 벤치마크에서 모두 새로운 최고 성능(SOTA)을 달성하였다.