2ヶ月前
XiYan-SQLの概要: テキストからSQLへの変換に向けたマルチジェネレーター集合フレームワーク
Gao, Yingqi ; Liu, Yifu ; Li, Xiaoxia ; Shi, Xiaorong ; Zhu, Yin ; Wang, Yiming ; Li, Shiqi ; Li, Wei ; Hong, Yuntao ; Luo, Zhiling ; Gao, Jinyang ; Mou, Liyu ; Li, Yu

要約
大規模言語モデルの自然言語からSQLへの変換タスクにおける性能向上の課題に対処するため、XiYan-SQLという革新的なフレームワークを提案します。このフレームワークは、候補生成の改善のために多発生器アンサンブル戦略を採用しています。また、データベース構造の理解を強化するために設計された半構造化スキーマ表現手法M-Schemaも導入します。生成される候補SQLクエリの品質と多様性を向上させるために、XiYan-SQLはコンテキスト内学習(In-Context Learning: ICL)の大きな可能性と監督付き微調整の精密な制御を統合しています。一方で、高品質かつ多様な候補を生成するための一連の訓練戦略を提案し、モデルを微調整します。他方で、エンティティに過度に焦点を当てるのを防ぐために、名詞認識に基づく例選択手法を使用したICLアプローチを実装しています。リファイナは論理的または文法的な誤りを修正することで各候補を最適化します。最良の候補を選定する課題に対処するために、候補SQLクエリ間の微妙な違いを見分ける選択モデルを微調整しています。複数の方言データセットでの実験結果は、XiYan-SQLが異なるシナリオにおいて課題に対処する堅牢性を示しています。全体的に、提案されたXiYan-SQLはBirdベンチマークで75.63%、Spiderテストセットで89.65%、SQL-Evalで69.86%、NL2GQLで41.20%という最先端の実行精度を達成しました。提案されたフレームワークはSQLクエリの品質と多様性を向上させるとともに、従来の方法を超える性能を発揮しています。