4ヶ月前

CHESS: 文脈を活用した効率的なSQL合成

Talaei, Shayan ; Pourreza, Mohammadreza ; Chang, Yu-Chen ; Mirhoseini, Azalia ; Saberi, Amin
CHESS: 文脈を活用した効率的なSQL合成
要約

自然言語の質問をSQLクエリに変換する問題、いわゆるテキストからSQLへの変換(text-to-SQL)は、長年の研究課題となっています。効果的なtext-to-SQL合成は、(i) データベースカタログ(テーブルとその列の説明)やデータベース値の広大な規模、(ii) 大規模なデータベーススキーマ上の推論、(iii) 生成されたクエリの機能的妥当性の確保、および (iv) 自然言語の質問における曖昧性の解消など、多くの課題により非常に困難になることがあります。私たちはCHESSという大規模言語モデル(LLM)に基づく多エージェントフレームワークを導入します。このフレームワークには4つの専門的なエージェントが含まれており、それぞれ上記の課題に対処しています。情報検索エージェント(Information Retriever: IR)は関連データを抽出し、スキーマ選択エージェント(Schema Selector: SS)は大規模なスキーマを削減し、候補生成エージェント(Candidate Generator: CG)は高品質な候補を生成しクエリを反復的に洗練し、単体テストエージェント(Unit Tester: UT)はLLMベースの自然言語による単体テストを通じてクエリを検証します。私たちのフレームワークは様々な展開制約に適応するための設定可能な機能を提供しており、以下のような特徴があります。1) 工業スケールのデータベース対応:スキーマ選択エージェントを利用することで、CHESSは非常に大きなデータベーススキーマを管理可能な部分スキーマに効率的に絞り込みます。これによりシステム精度が約2%向上し、LLMトークン数が5倍程度削減されます。2) 最新のプライバシー保護性能:オープンソースモデルを使用する方法の中では、CHESSが最新の性能を達成しており、高性能でプライバシー保護されたシステムとして工業展開に適しています。3) 追加計算予算によるスケーラビリティ:高い計算予算を持つ環境では、CHESSはBIRDテストセットにおいて71.10%の精度を達成し、主要なプロプライエタリ手法との差が2%以内である一方で、約83%少ないLLM呼び出し回数で動作します。

CHESS: 文脈を活用した効率的なSQL合成 | 論文 | HyperAI超神経