LLMはすでにデータベースインターフェースとして機能できるか?大規模なデータベースに基づくテキストtoSQLのためのビッグベンチ

自然言語の指示を実行可能なSQLに変換することを目的とするText-to-SQLのパーシングは、近年ますます注目を集めている。特に、CodexやChatGPTはこのタスクにおいて驚異的な成果を上げている。しかし、現在一般的に用いられているベンチマーク、例えばSpiderやWikiSQLは、データベースのスキーマに焦点を当てており、データ内容の行数が少ない状態にとどまっているため、学術研究と実世界の応用との間に大きなギャップが存在している。このギャップを是正するために、我々は大規模なデータベースを基盤とするText-to-SQLタスク向けの大規模ベンチマーク「BIRD」を提案する。BIRDは、12,751組のテキストからSQLへの変換データと、合計33.4GBの容量を有する95のデータベースを含み、37の専門分野にまたがっている。本研究では、データベースの値(値情報)への注目を強調し、汚染されたデータ内容、自然言語質問とデータベース内容との間の外部知識の統合、そして大規模データベースにおけるSQLの効率性といった新たな課題を浮き彫りにしている。これらの課題を克服するためには、従来の意味解析に加えて、テキストからSQLを生成するモデルがデータベースの値を正確に理解する能力を備える必要がある。実験結果は、大規模データベースにおいて正確なText-to-SQL生成において、データベースの値の理解が極めて重要であることを示している。さらに、最も効果的なText-to-SQLモデルであるChatGPTですら実行精度が40.08%にとどまり、人間の結果(92.96%)には依然として大きな差があることから、依然として大きな課題が存在することが明らかになった。また、産業界にとって有益な「効率的なSQL生成」に関する効率性分析も提供することで、実用化への洞察を示している。我々は、BIRDがText-to-SQL研究の実世界応用の発展に貢献すると確信している。リーダーボードおよびソースコードは以下のURLから公開されている:https://bird-bench.github.io/。