LLM는 이미 데이터베이스 인터페이스로 사용될 수 있는가? 대규모 데이터베이스 기반 텍스트-to-SQL에 대한 대규모 벤치마크

텍스트-SQL 파싱은 자연어 지시를 실행 가능한 SQL로 변환하는 것을 목표로 하며, 최근 몇 년간 점점 더 많은 주목을 받고 있다. 특히 Codex와 ChatGPT는 이 작업에서 놀라운 성과를 보여주었다. 그러나 현재 널리 사용되는 벤치마크인 Spider와 WikiSQL은 데이터베이스 스키마는 다루지만, 데이터 내용이 몇 줄에 불과한 제한된 규모에 초점을 맞추고 있어, 학계 연구와 실제 산업 응용 사이의 격차를 여전히 남겨두고 있다. 이러한 격차를 완화하기 위해 우리는 12,751개의 텍스트-SQL 데이터 쌍과 총 33.4GB 규모의 95개 데이터베이스를 포함하며, 37개의 전문 분야를 아우르는 대규모 데이터베이스 기반의 새로운 벤치마크인 BIRD를 제안한다. 본 연구는 데이터베이스 값에 중점을 두어, 오염된 데이터 내용, 자연어 질문과 데이터베이스 내용 사이의 외부 지식 간 연결, 그리고 대규모 데이터베이스 환경에서의 SQL 효율성과 같은 새로운 도전 과제를 부각시킨다. 이러한 문제들을 해결하기 위해서는 단순한 의미 해석을 넘어서 데이터베이스 값에 대한 이해 능력을 갖춘 텍스트-SQL 모델이 필요하다. 실험 결과는 대규모 데이터베이스 환경에서 정확한 텍스트-SQL 생성에 있어 데이터베이스 값의 중요성을 입증한다. 또한, 가장 효과적인 텍스트-SQL 모델인 ChatGPT조차도 실행 정확도에서 40.08%에 그치며, 인간의 수준(92.96%)과는 여전히 큰 격차가 있음을 보여주며, 여전히 극복해야 할 도전 과제가 있음을 입증한다. 더불어, 산업계에 유익한 효율적인 텍스트-SQL 생성을 위한 효율성 분석도 제공한다. 우리는 BIRD가 텍스트-SQL 연구의 실용적 응용 발전에 기여할 것이라고 믿는다. 랭킹 및 소스 코드는 다음 링크에서 확인할 수 있다: https://bird-bench.github.io/.