11일 전

KaggleDBQA: 텍스트-to-SQL 파서의 실제 평가

Chia-Hsuan Lee, Oleksandr Polozov, Matthew Richardson
KaggleDBQA: 텍스트-to-SQL 파서의 실제 평가
초록

데이터베이스 질의 응답의 목표는 다양한 응용 분야에서 실제 관계형 데이터베이스에 자연어로 질의할 수 있도록 하는 것이다. 최근 스파이더(Spider) 및 위키SQL(WikiSQL)와 같은 대규모 데이터셋이 텍스트-SQL 파싱을 위한 새로운 모델링 기법의 발전을 촉진하였으며, 미리 보지 않은 데이터베이스에 대한 제로샷 일반화 능력을 향상시켰다. 본 연구에서는 이러한 기법들이 실질적인 구현에까지 이르지 못하게 하는 여전한 도전 과제들을 검토한다. 먼저, 도메인 특화된 데이터 유형, 원본 형식, 제한 없는 질문을 포함하는 실제 웹 기반 데이터베이스를 대상으로 한 새로운 교차 도메인 평가 데이터셋인 KaggleDBQA를 제안한다. 다음으로, 실제 환경에서 텍스트-SQL 파서를 평가하는 데 있어 평가 과제 선택의 타당성을 재검토한다. 마지막으로, 도메인 내 평가 과제에 데이터베이스 문서화 문서를 추가하여 자연스럽게 존재하는 암묵적 도메인 지식을 활용한다. 실험 결과, KaggleDBQA는 최신 제로샷 파서들에게 도전 과제를 제시하지만, 더 현실적인 평가 환경과 관련 데이터베이스 문서화 문서의 창의적 활용은 그들의 정확도를 13.2% 이상 향상시키며 성능을 두 배로 끌어올리는 것으로 나타났다.

KaggleDBQA: 텍스트-to-SQL 파서의 실제 평가 | 최신 연구 논문 | HyperAI초신경