15日前
Knowledge-to-SQL:データ専門のLLMを活用したSQL生成の向上
Zijin Hong, Zheng Yuan, Hao Chen, Qinggang Zhang, Feiran Huang, Xiao Huang

要約
ユーザーの質問(自然言語)から正確なSQLクエリを生成する(テキストtoSQL)ことは、長年にわたり一貫した課題である。これは、ユーザーの質問と対応するデータベーススキーマの両方を深く理解する必要があるため、望ましい結果を正確に取得することが難しいからである。従来の手法は、大規模言語モデル(LLM)の包括的な能力に依存してSQLを生成している。しかし、データベーススキーマやユーザーの質問に明示的に含まれていない必要知識が、LLMによって学習されている場合がある。その結果、知識が不足する質問に対して生成されるSQLは不正確になり、テキストtoSQLモデルの性能および耐障害性に悪影響を及ぼすことがある。この課題に対処するために、本研究では「Knowledge-to-SQLフレームワーク」を提案する。このフレームワークは、特定のデータエキスパートLLM(DELLM)を用いて、すべてのテキストtoSQLモデルに有用な知識を提供する。具体的には、DELLMのテーブル読み取り処理および基本的なファインチューニングプロセスの詳細な実装を提示する。さらに、データベースフィードバックを活用したプレファレンス学習(PLDBF)戦略を提案し、DELLMがLLMにより有益な知識を生成するよう精緻化する。広範な実験により、DELLMが最先端のテキストtoSQLアプローチを強化できることを検証した。DELLMの実装コードも公開し、今後の研究に貢献することを目的としている。