11日前

LLMはすでにデータベースインターフェースとして機能できるか?大規模なデータベースに基づくテキストtoSQLのためのビッグベンチ

Jinyang Li, Binyuan Hui, Ge Qu, Jiaxi Yang, Binhua Li, Bowen Li, Bailin Wang, Bowen Qin, Rongyu Cao, Ruiying Geng, Nan Huo, Xuanhe Zhou, Chenhao Ma, Guoliang Li, Kevin C.C. Chang, Fei Huang, Reynold Cheng, Yongbin Li
LLMはすでにデータベースインターフェースとして機能できるか?大規模なデータベースに基づくテキストtoSQLのためのビッグベンチ
要約

自然言語の指示を実行可能なSQLに変換することを目的とするText-to-SQLのパーシングは、近年ますます注目を集めている。特に、CodexやChatGPTはこのタスクにおいて驚異的な成果を上げている。しかし、現在一般的に用いられているベンチマーク、例えばSpiderやWikiSQLは、データベースのスキーマに焦点を当てており、データ内容の行数が少ない状態にとどまっているため、学術研究と実世界の応用との間に大きなギャップが存在している。このギャップを是正するために、我々は大規模なデータベースを基盤とするText-to-SQLタスク向けの大規模ベンチマーク「BIRD」を提案する。BIRDは、12,751組のテキストからSQLへの変換データと、合計33.4GBの容量を有する95のデータベースを含み、37の専門分野にまたがっている。本研究では、データベースの値(値情報)への注目を強調し、汚染されたデータ内容、自然言語質問とデータベース内容との間の外部知識の統合、そして大規模データベースにおけるSQLの効率性といった新たな課題を浮き彫りにしている。これらの課題を克服するためには、従来の意味解析に加えて、テキストからSQLを生成するモデルがデータベースの値を正確に理解する能力を備える必要がある。実験結果は、大規模データベースにおいて正確なText-to-SQL生成において、データベースの値の理解が極めて重要であることを示している。さらに、最も効果的なText-to-SQLモデルであるChatGPTですら実行精度が40.08%にとどまり、人間の結果(92.96%)には依然として大きな差があることから、依然として大きな課題が存在することが明らかになった。また、産業界にとって有益な「効率的なSQL生成」に関する効率性分析も提供することで、実用化への洞察を示している。我々は、BIRDがText-to-SQL研究の実世界応用の発展に貢献すると確信している。リーダーボードおよびソースコードは以下のURLから公開されている:https://bird-bench.github.io/。

LLMはすでにデータベースインターフェースとして機能できるか?大規模なデータベースに基づくテキストtoSQLのためのビッグベンチ | 最新論文 | HyperAI超神経