3ヶ月前

スキーマリンクの死? 良く推論する言語モデルの時代におけるテキストtoSQL

Karime Maamari, Fadhil Abubaker, Daniel Jaroslawicz, Amine Mhedhbi
スキーマリンクの死? 良く推論する言語モデルの時代におけるテキストtoSQL
要約

スキーマリンクは、Text-to-SQLパイプラインにおける重要なステップである。その目的は、ユーザーのクエリに対して対象データベースの関連するテーブルおよびカラムを抽出し、無関係なものを除外することにある。しかし、スキーマリンクが不完全である場合、正確なクエリ生成に必要なカラムが誤って除外されることがよくある。本研究では、最新の大型言語モデル(LLM)を用いた場合のスキーマリンクを見直す。実証的に、新しいモデルは大量の無関係なスキーマ要素が存在する状況下でも、生成過程において関連するスキーマ要素を効果的に活用できることが分かった。このため、スキーマがモデルのコンテキストウィンドウに収まる場合、我々のText-to-SQLパイプラインはスキーマリンクを完全に省略することで、必要なスキーマ要素のフィルタリングに起因する問題を最小限に抑える。さらに、コンテキスト情報のフィルタリングに頼るのではなく、拡張(augmentation)、選択(selection)、修正(correction)といった技術を強調し、それらを活用してパイプラインの精度を向上させた。本手法はBIRDベンチマークにおいて第一位となり、精度71.83%を達成した。