11일 전
RESDSQL: 텍스트-to-SQL을 위한 스키마 링킹과 스켈레톤 파싱의 분리
Haoyang Li, Jing Zhang, Cuiping Li, Hong Chen

초록
최근 텍스트-to-SQL 연구 중 가장 우수한 접근 방식 중 하나는 사전 훈련된 언어 모델이다. SQL 쿼리의 구조적 특성 상, seq2seq 모델은 스키마 항목(즉, 테이블과 컬럼)과 스키마 구조(즉, SQL 키워드)를 모두 해석하는 책임을 지고 있다. 이러한 결합된 목표는 특히 많은 스키마 항목과 논리 연산자를 포함하는 쿼리에서 올바른 SQL 쿼리를 해석하는 데 어려움을 가중시킨다. 본 논문은 스키마 연결과 스키마 구조 해석을 분리하기 위해 순서 기반 인코딩 강화 및 구조 인식 디코딩 프레임워크를 제안한다. 구체적으로, seq2seq 인코더-디코더 모델의 경우, 인코더는 전체 순서 없는 스키마 항목이 아닌 가장 관련성이 높은 스키마 항목으로 대체되며, 이는 SQL 해석 과정에서 스키마 연결 부담을 완화할 수 있다. 또한 디코더는 먼저 쿼리의 구조(스켈레톤)를 생성한 후 실제 SQL 쿼리를 생성함으로써, SQL 해석을 암묵적으로 제약할 수 있다. 제안한 프레임워크는 Spider 및 그 세 가지 강건성 변형(Spider-DK, Spider-Syn, Spider-Realistic)에서 평가되었으며, 실험 결과 본 프레임워크는 뛰어난 성능과 강건성을 보였다. 코드는 https://github.com/RUCKBReasoning/RESDSQL 에 공개되어 있다.