PET-SQL: 텍스트-SQL의 프롬프트 강화형 두 단계 개선 및 교차 일관성 기반 접근

최근 텍스트-SQL(Text2SQL) 분야의 발전은 대규모 언어 모델(LLM)의 컨텍스트 내 학습(in-context learning)을 유도하는 데 초점을 맞추며 놀라운 성과를 거두고 있다. 그러나 복잡한 사용자 의도나 방대한 데이터베이스 정보를 다룰 때 여전히 도전 과제에 직면해 있다. 본 논문은 현재 LLM 기반의 자연어에서 SQL로의 변환 시스템 성능을 향상시키기 위한 이단계 프레임워크를 제안한다. 먼저, 스키마 정보와 테이블에서 무작위로 샘플링한 셀 값들을 포함하는 새로운 프롬프트 표현 방식인 '참조 강화 표현(Reference-enhanced Representation)'을 도입하여 LLM이 SQL 쿼리를 생성하도록 안내한다. 이후 첫 번째 단계에서는 질문-SQL 쌍을 소수 예시(few-shot demonstrations)로 검색하여 LLM이 초기 SQL(PreSQL)을 생성하도록 유도한다. 이후 PreSQL에 언급된 엔티티를 분석하여 스키마 링킹(schema linking)을 수행함으로써 유용한 정보를 크게 압축한다. 두 번째 단계에서는 링크된 스키마 정보를 기반으로 프롬프트의 스키마 정보를 단순화하고, LLM이 최종 SQL을 생성하도록 지시한다. 마지막으로, 후처리 보정 모듈로써 특정 LLM 내에서의 자기 일관성(self-consistency)이 아닌, 다양한 LLM 간의 교차 일관성(cross-consistency)을 활용하는 방법을 제안한다. 본 연구 방법은 Spider 벤치마크에서 새로운 최고 성능(SOTA)을 달성하여 실행 정확도(execution accuracy) 87.6%를 기록하였다.