11일 전

LLM는 이미 데이터베이스 인터페이스로 사용될 수 있는가? 대규모 데이터베이스 기반 텍스트-to-SQL에 대한 대규모 벤치마크

Jinyang Li, Binyuan Hui, Ge Qu, Jiaxi Yang, Binhua Li, Bowen Li, Bailin Wang, Bowen Qin, Rongyu Cao, Ruiying Geng, Nan Huo, Xuanhe Zhou, Chenhao Ma, Guoliang Li, Kevin C.C. Chang, Fei Huang, Reynold Cheng, Yongbin Li
LLM는 이미 데이터베이스 인터페이스로 사용될 수 있는가? 대규모 데이터베이스 기반 텍스트-to-SQL에 대한 대규모 벤치마크
초록

텍스트-SQL 파싱은 자연어 지시를 실행 가능한 SQL로 변환하는 것을 목표로 하며, 최근 몇 년간 점점 더 많은 주목을 받고 있다. 특히 Codex와 ChatGPT는 이 작업에서 놀라운 성과를 보여주었다. 그러나 현재 널리 사용되는 벤치마크인 Spider와 WikiSQL은 데이터베이스 스키마는 다루지만, 데이터 내용이 몇 줄에 불과한 제한된 규모에 초점을 맞추고 있어, 학계 연구와 실제 산업 응용 사이의 격차를 여전히 남겨두고 있다. 이러한 격차를 완화하기 위해 우리는 12,751개의 텍스트-SQL 데이터 쌍과 총 33.4GB 규모의 95개 데이터베이스를 포함하며, 37개의 전문 분야를 아우르는 대규모 데이터베이스 기반의 새로운 벤치마크인 BIRD를 제안한다. 본 연구는 데이터베이스 값에 중점을 두어, 오염된 데이터 내용, 자연어 질문과 데이터베이스 내용 사이의 외부 지식 간 연결, 그리고 대규모 데이터베이스 환경에서의 SQL 효율성과 같은 새로운 도전 과제를 부각시킨다. 이러한 문제들을 해결하기 위해서는 단순한 의미 해석을 넘어서 데이터베이스 값에 대한 이해 능력을 갖춘 텍스트-SQL 모델이 필요하다. 실험 결과는 대규모 데이터베이스 환경에서 정확한 텍스트-SQL 생성에 있어 데이터베이스 값의 중요성을 입증한다. 또한, 가장 효과적인 텍스트-SQL 모델인 ChatGPT조차도 실행 정확도에서 40.08%에 그치며, 인간의 수준(92.96%)과는 여전히 큰 격차가 있음을 보여주며, 여전히 극복해야 할 도전 과제가 있음을 입증한다. 더불어, 산업계에 유익한 효율적인 텍스트-SQL 생성을 위한 효율성 분석도 제공한다. 우리는 BIRD가 텍스트-SQL 연구의 실용적 응용 발전에 기여할 것이라고 믿는다. 랭킹 및 소스 코드는 다음 링크에서 확인할 수 있다: https://bird-bench.github.io/.

LLM는 이미 데이터베이스 인터페이스로 사용될 수 있는가? 대규모 데이터베이스 기반 텍스트-to-SQL에 대한 대규모 벤치마크 | 최신 연구 논문 | HyperAI초신경