2ヶ月前

Spider 2.0: 実世界の企業におけるテキストからSQLへのワークフローを評価する

Lei, Fangyu ; Chen, Jixuan ; Ye, Yuxiao ; Cao, Ruisheng ; Shin, Dongchan ; Su, Hongjin ; Suo, Zhaoqing ; Gao, Hongcheng ; Hu, Wenjing ; Yin, Pengcheng ; Zhong, Victor ; Xiong, Caiming ; Sun, Ruoxi ; Liu, Qian ; Wang, Sida ; Yu, Tao
Spider 2.0: 実世界の企業におけるテキストからSQLへのワークフローを評価する
要約

実際の企業におけるテキストからSQLへのワークフローは、複雑なクラウドやローカルデータ、さまざまなデータベースシステム、複数のSQLクエリ(異なる方言を含む)、そしてデータ変換から分析に至る多様な操作を伴うことが多いです。私たちは、企業レベルのデータベースユースケースから派生した632件の実際のテキストからSQLへのワークフロー問題を含む評価フレームワークであるSpider 2.0を紹介します。Spider 2.0のデータベースは、実際のデータアプリケーションから取得されており、しばしば1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに保存されています。私たちは、Spider 2.0の問題解決にはしばしばデータベースメタデータ、方言ドキュメンテーション、さらにはプロジェクトレベルのコードベースを理解し検索する必要があることを示しています。この課題は、モデルが複雑なSQLワークフロー環境と対話し、非常に長いコンテキストを処理し、精巧な推論を行い、多様な操作を持つ複数のSQLクエリ(しばしば100行を超える)を生成することを求めています。これは従来のテキストからSQLへの課題とは大きく異なります。私たちの評価結果によると、o1-previewに基づいて当社のコードエージェントフレームワークはSpider 2.0でわずか21.3%のタスクのみを成功裏に解決できましたが、Spider 1.0では91.2%、BIRDでは73.0%でした。Spider 2.0での結果は、言語モデルがコード生成において優れた性能を示していること——特に以前のテキストからSQLへのベンチマークにおいて——にもかかわらず、実際の企業利用に適切な性能を得るためには大幅な改善が必要であることを示しています。Spider 2.0での進展は、実際の企業環境向けに知能化され自律的なコードエージェントを開発する上で重要な一歩となるでしょう。当社のコード、基準モデルおよびデータは以下のURLで公開されています: https://spider2-sql.github.io

Spider 2.0: 実世界の企業におけるテキストからSQLへのワークフローを評価する | 最新論文 | HyperAI超神経