16일 전

Graphix-T5: 텍스트-SQL 파싱을 위한 사전 훈련된 트랜스포머와 그래프 인식 레이어의 혼합

Jinyang Li, Binyuan Hui, Reynold Cheng, Bowen Qin, Chenhao Ma, Nan Huo, Fei Huang, Wenyu Du, Luo Si, Yongbin Li
Graphix-T5: 텍스트-SQL 파싱을 위한 사전 훈련된 트랜스포머와 그래프 인식 레이어의 혼합
초록

자연어 질문을 실행 가능한 SQL 쿼리로 변환하는 텍스트-SQL 파싱(task of text-to-SQL parsing)은 최근 몇 년간 점점 더 많은 주목을 받고 있으며, 이는 기술적 배경 없이도 사용자가 데이터베이스에서 중요한 정보를 효율적으로 추출할 수 있도록 도와주기 때문이다. 텍스트-SQL 파싱의 주요 과제 중 하나는 도메인 일반화(domain generalization)로서, 즉 미리 보지 못한 데이터베이스에 잘 일반화할 수 있는 능력이다. 최근, 전처리된 텍스트-텍스트 변환 모델인 T5는 텍스트-SQL 파싱에 특화되지 않았음에도 불구하고, 도메인 일반화를 목표로 한 표준 벤치마크에서 최고 성능을 기록했다. 본 연구에서는 T5의 전처리된 모델을 텍스트-SQL 파싱에 특화된 구성 요소로 더욱 강화하는 방법을 탐색한다. 이러한 구성 요소는 텍스트-SQL 파서에 구조적 유도 편향(inductive bias)을 도입함으로써, 구조적으로 복잡한 SQL을 생성하는 데 필수적인 (가능한 다단계의) 추론 능력을 향상시킬 것으로 기대된다. 이를 위해 우리는 기존의 전처리된 트랜스포머 모델에 특별히 설계된 그래프 인지(Graph-aware) 레이어를 추가한 혼합형 아키텍처인 GRAPHIX-T5를 제안한다. 광범위한 실험과 분석을 통해 GRAPHIX-T5의 효과성이 SPIDER, SYN, REALISTIC, DK 등 네 가지 텍스트-SQL 벤치마크에서 입증되었다. GRAPHIX-T5는 다른 모든 T5 기반 파서를 상당한 격차로 앞서며 새로운 최고 성능을 달성했다. 특히, GRAPHIX-T5-large는 정확 일치(exact match, EM) 정확도에서 원본 T5-large보다 5.7% 향상되었으며, 실행 정확도(execution accuracy, EX)에서는 6.6% 향상되었다. 이는 T5-3B보다 EM에서 1.2%, EX에서 1.5% 높은 성능을 기록한 것으로, 기존의 대규모 모델을 초월하는 결과이다.