7ヶ月前

データセット

自然言語処理

ベンチマーク

AIインフラストラクチャ

自然言語処理

Tao Yu Rui Zhang Kai Yang Michihiro Yasunaga Dongxu Wang Zifan Li James Ma Irene Li Qingning Yao Shanelle Roman

概要

私たちは、11人の大学生によって注釈された大規模で複雑かつ多領域の意味解析およびテキストからSQLへの変換データセットであるSpiderを紹介します。このデータセットは、200の複数テーブルを持つデータベースに存在する10,181の質問と5,693の異なる複雑なSQLクエリから構成されており、138の異なる領域をカバーしています。私たちは、訓練セットとテストセットで異なる複雑なSQLクエリとデータベースが登場する新しい複雑かつ多領域の意味解析およびテキストからSQLへの変換タスクを定義しました。これにより、モデルは新しいSQLクエリと新しいデータベーススキーマに対して良好に一般化することが求められます。Spiderは、以前の大部分の意味解析タスクとは異なります。それらはすべて単一のデータベースを使用し、訓練セットとテストセットで完全に同じプログラムを使用しています。私たちは様々な最先端モデルを実験し、最良のモデルでもデータベース分割設定での完全一致精度は12.4%に過ぎませんでした。これは、Spiderが今後の研究にとって大きな挑戦であることを示しています。私たちのデータセットとタスクは、https://yale-lily.github.io/spider で公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

データセット

自然言語処理

ベンチマーク

AIインフラストラクチャ

自然言語処理

Tao Yu Rui Zhang Kai Yang Michihiro Yasunaga Dongxu Wang Zifan Li James Ma Irene Li Qingning Yao Shanelle Roman

概要

私たちは、11人の大学生によって注釈された大規模で複雑かつ多領域の意味解析およびテキストからSQLへの変換データセットであるSpiderを紹介します。このデータセットは、200の複数テーブルを持つデータベースに存在する10,181の質問と5,693の異なる複雑なSQLクエリから構成されており、138の異なる領域をカバーしています。私たちは、訓練セットとテストセットで異なる複雑なSQLクエリとデータベースが登場する新しい複雑かつ多領域の意味解析およびテキストからSQLへの変換タスクを定義しました。これにより、モデルは新しいSQLクエリと新しいデータベーススキーマに対して良好に一般化することが求められます。Spiderは、以前の大部分の意味解析タスクとは異なります。それらはすべて単一のデータベースを使用し、訓練セットとテストセットで完全に同じプログラムを使用しています。私たちは様々な最先端モデルを実験し、最良のモデルでもデータベース分割設定での完全一致精度は12.4%に過ぎませんでした。これは、Spiderが今後の研究にとって大きな挑戦であることを示しています。私たちのデータセットとタスクは、https://yale-lily.github.io/spider で公開されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています