3달 전
스키마 링킹의 종말? 잘 추론하는 언어 모델 시대의 텍스트-to-SQL
Karime Maamari, Fadhil Abubaker, Daniel Jaroslawicz, Amine Mhedhbi

초록
Schema 링킹은 텍스트-SQL 파이프라인에서 핵심적인 단계이다. 이 단계의 목적은 사용자의 질의에 해당하는 타겟 데이터베이스의 관련 테이블과 컬럼을 검색하고, 불필요한 요소들을 배제하는 것이다. 그러나 완벽하지 않은 schema 링킹은 정확한 쿼리 생성에 필수적인 컬럼을 제외할 수 있다. 본 연구에서는 최신 세대의 대규모 언어 모델(LLM)을 활용할 때 schema 링킹을 다시 검토한다. 실험적으로 확인한 결과, 최신 모델은 많은 수의 불필요한 요소가 존재하더라도 생성 과정에서 관련 스키마 요소를 효과적으로 활용할 수 있음을 알 수 있었다. 이러한 특성을 바탕으로, 모델의 컨텍스트 창에 스키마 전체가 포함될 수 있는 경우, 본 텍스트-SQL 파이프라인은 스키마 링킹 단계를 완전히 생략함으로써 필터링 과정에서 필요한 스키마 요소가 손실되는 문제를 최소화한다. 더불어, 컨텍스트 정보를 필터링하는 대신 증강(augmentation), 선택(selection), 보정(correction) 등의 기법을 강조하고 이를 도입함으로써 텍스트-SQL 파이프라인의 정확도를 향상시켰다. 본 연구의 접근 방식은 BIRD 벤치마크에서 1위를 기록하며 정확도 71.83%를 달성하였다.