2달 전

스파이더 2.0: 실제 기업 환경에서 언어 모델의 텍스트-SQL 워크플로 평가

Lei, Fangyu ; Chen, Jixuan ; Ye, Yuxiao ; Cao, Ruisheng ; Shin, Dongchan ; Su, Hongjin ; Suo, Zhaoqing ; Gao, Hongcheng ; Hu, Wenjing ; Yin, Pengcheng ; Zhong, Victor ; Xiong, Caiming ; Sun, Ruoxi ; Liu, Qian ; Wang, Sida ; Yu, Tao

논문 세부 정보 보기

스파이더 2.0: 실제 기업 환경에서 언어 모델의 텍스트-SQL 워크플로 평가

초록

실제 기업 환경에서의 텍스트-투-SQL 워크플로는 종종 다양한 데이터베이스 시스템에 걸친 복잡한 클라우드 또는 로컬 데이터, 여러 가지 방언으로 작성된 다수의 SQL 쿼리, 그리고 데이터 변환부터 분석까지 다양한 작업을 포함합니다. 우리는 이러한 기업 수준의 데이터베이스 사용 사례에서 파생된 632개의 실제 텍스트-투-SQL 워크플로 문제를 포함하는 평가 프레임워크인 Spider 2.0을 소개합니다. Spider 2.0의 데이터베이스는 실제 데이터 애플리케이션에서 유래되었으며, 종종 1,000개 이상의 열을 포함하고 있으며 BigQuery와 Snowflake 등의 로컬 또는 클라우드 데이터베이스 시스템에 저장되어 있습니다.Spider 2.0의 문제 해결은 종종 데이터베이스 메타데이터 이해 및 검색, 방언 문서 검토, 심지어 프로젝트 수준의 코드베이스 조사가 필요함을 보여줍니다. 이 도전 과제는 모델들이 복잡한 SQL 워크플로 환경과 상호작용하고, 극도로 긴 문맥을 처리하며, 정교한 추론을 수행하며, 종종 100줄 이상에 달하는 다양한 작업을 포함하는 여러 개의 SQL 쿼리를 생성해야 함을 의미합니다. 이는 전통적인 텍스트-투-SQL 도전 과제를 크게 넘어섭니다.우리의 평가는 o1-preview 기반으로, 우리의 코드 에이전트 프레임워크가 Spider 1.0에서는 91.2%, BIRD에서는 73.0%의 작업을 성공적으로 해결하는 반면 Spider 2.0에서는 단지 21.3%만 해결할 수 있음을 나타냅니다. Spider 2.0에서 얻은 결과는 언어 모델들이 코드 생성 — 특히 이전 텍스트-투-SQL 벤치마크에서 — 뛰어난 성능을 보였음에도 불구하고 실제 기업 환경에서 적절한 성능을 달성하기 위해서는 상당한 개선이 필요함을 보여줍니다.Spider 2.0에서의 진전은 실제 기업 환경에서 지능적이고 자율적인 코드 에이전트를 개발하기 위한 중요한 단계를 대표합니다. 우리의 코드, 베이스라인 모델 및 데이터는 https://spider2-sql.github.io 에서 확인할 수 있습니다.